home *** CD-ROM | disk | FTP | other *** search
/ SGI Developer Toolbox 6.1 / SGI Developer Toolbox 6.1 - Disc 4.iso / FAQs / netfaqs / speech-faq < prev    next >
Text File  |  1994-08-01  |  107KB  |  2,568 lines

  1.  
  2. Newsgroups: comp.speech,comp.answers,news.answers
  3. From: andrewh@speech.su.oz.au (Andrew Hunt)
  4. Subject: comp.speech Frequently Asked Questions
  5. Supersedes: <comp-speech-faq/part1_764040899@rtfm.mit.edu>
  6. Followup-To: comp.speech
  7. Date: 16 Apr 1994 13:07:57 GMT
  8. Organization: Speech Technology Group, The University of Sydney
  9. Lines: 814
  10. Approved: news-answers-request@MIT.Edu
  11. Expires: 28 May 1994 13:05:48 GMT
  12. Reply-To: andrewh@speech.su.oz.au (Andrew Hunt)
  13. NNTP-Posting-Host: bloom-picayune.mit.edu
  14. Summary: Useful information about Speech Technology
  15. X-Last-Updated: 1994/04/06
  16. Originator: faqserv@bloom-picayune.MIT.EDU
  17. Xref: bloom-beacon.mit.edu comp.speech:2283 comp.answers:4932 news.answers:18146
  18.  
  19. Archive-name: comp-speech-faq
  20. Last-modified: 1994/04/06
  21.  
  22.  
  23.                        comp.speech
  24.  
  25.                 Frequently Asked Questions
  26.                 ==========================
  27.  
  28. This document is an attempt to answer commonly asked questions and to
  29. reduce the bandwidth taken up by these posts and their associated replies.
  30. If you have a question, please check this file before you post.
  31.  
  32. The FAQ is not meant to discuss any topic exhaustively.  It will hopefully
  33. provide readers with pointers on where to find useful information.  It also
  34. tries to list useful material available elsewhere on the net.
  35.  
  36. If you have not already read the Usenet introductory material posted to
  37. "news.announce.newusers", please do.  For help with FTP (file transfer
  38. protocol) look for a regular posting of "Anonymous FTP List - FAQ" in
  39. comp.misc, comp.archives.admin or news.answers.
  40.  
  41.  
  42. This FAQ is posted every 4 weeks to comp.speech, comp.answers & news.answers.
  43.  
  44.  
  45. It is also available for anonymous ftp from the comp.speech archive site
  46.     svr-ftp.eng.cam.ac.uk:/comp.speech/FAQ
  47. It is also available from the news.answers ftp site (and its mirrors) as
  48.     rtfm.mit.edu:/pub/usenet/news.answers/comp-speech-faq
  49. It is also available by sending email to <mail-server@rtfm.mit.edu> with
  50.     send usenet/news.answers/comp-speech-faq/*
  51.     in one line of the body of the message.
  52.  
  53.  
  54. Admin
  55. -----
  56.  
  57. This release brings updates on a number of synthesis and recognition 
  58. products as well as a number of new entries.  Keeping up-to-date with
  59. the increasing number of new Windows products is becoming more 
  60. difficult.  Any help with this will be greatly appreciated.
  61.  
  62.  
  63. Cheers,
  64.  
  65. Andrew Hunt
  66. Speech Technology Research Group    email: andrewh@speech.su.oz.au
  67. Department of Electrical Engineering    Ph:  61-2-692 4509
  68. University of Sydney, NSW, Australia.    Fax: 61-2-692 3847
  69.  
  70.  
  71. ========================== Acknowledgements ===========================
  72.  
  73. Thanks to the following for their significant comments and contributions.
  74.  
  75. Barry Arons        <barons@media-lab.mit.edu>
  76. Joe Campbell        <jpcampb@afterlife.ncsc.mil>
  77. Oliver Jakobs        <jakobs@ldv01.Uni-Trier.de>
  78. Sonja Kowalewski    <kowa@uniko.uni-koblenz.de>
  79. Tony Robinson        <ajr@eng.cam.ac.uk>
  80. Mike            <mike%jim.uucp@wupost.wustl.edu>
  81.  
  82. Many others have provided useful information.  Thanks to all.
  83.  
  84.  
  85. ============================ Contents =================================
  86.  
  87. SECTION 1 - General
  88.  
  89. Q1.1: What is comp.speech?
  90. Q1.2: Where are the comp.speech archives?
  91. Q1.3: Common abbreviations and jargon.
  92. Q1.4: What are related newsgroups and mailing lists?
  93. Q1.5: What are related journals and conferences?
  94. Q1.6: What resources are available as handicap aids?
  95. Q1.7: What speech data is available?
  96. Q1.8: Speech File Formats, Conversion and Playing.
  97. Q1.9: What "Speech Laboratory Environments" are available?
  98. Q1.10: Miscelaneous Software and Other Resources.
  99.  
  100. SECTION 2 - Signal Processing for Speech
  101.  
  102. Q2.1: What sampling do I need for speech?
  103. Q2.2: How do I find the pitch of a speech signal?
  104. Q2.3: How do I find the start and end points of a speech signal?
  105. Q2.4: Where can I find FFT software?
  106. Q2.5: What signal processing techniques are used in speech technology?
  107. Q2.6: What speech sampling and signal processing hardware can I use?
  108. Q2.7: How do I convert to/from mu-law format?
  109.  
  110. SECTION 3 - Speech Coding and Compression
  111.  
  112. Q3.1: Speech compression techniques.
  113. Q3.2: What are some good references/books on coding/compression?
  114. Q3.3: What software is available?
  115.  
  116. SECTION 4 - Natural Language Processing
  117.  
  118. Q4.1: What are some good references/books on NLP?
  119. Q4.2: What NLP software is available?
  120.  
  121. SECTION 5 - Speech Synthesis
  122.  
  123. Q5.1: What is speech synthesis?
  124. Q5.2: How can speech synthesis be performed?
  125. Q5.3: What are some good references/books on synthesis?
  126. Q5.4: What software/hardware is available?
  127.  
  128. SECTION 6 - Speech Recognition
  129.  
  130. Q6.1: What is speech recognition?
  131. Q6.2: How can I build a very simple speech recogniser?
  132. Q6.2: What does speaker dependent/adaptive/independent mean?
  133. Q6.3: What does small/medium/large/very-large vocabulary mean?
  134. Q6.4: What does continuous speech or isolated-word mean?
  135. Q6.5: How is speech recognition done?
  136. Q6.6: What are some good references/books on recognition?
  137. Q6.7: What speech recognition packages are available?
  138.  
  139. =======================================================================
  140.  
  141. SECTION 1 - General
  142.  
  143. Q1.1: What is comp.speech?
  144.  
  145. comp.speech is a newsgroup for discussion of speech technology and 
  146. speech science.  It covers a wide range of issues from application of 
  147. speech technology, to research, to products and lots more.  By nature 
  148. speech technology is an inter-disciplinary field and the newsgroup reflects 
  149. this.  However, computer application is the basic theme of the group.
  150.  
  151. The following is a list of topics but does not cover all matters related 
  152. to the field - no order of importance is implied.
  153.  
  154. [1] Speech Recognition - discussion of methodologies, training, techniques, 
  155. results and applications.  This should cover the application of techniques 
  156. including HMMs, neural-nets and so on to the field.
  157.  
  158. [2] Speech Synthesis - discussion concerning theoretical and practical
  159. issues associated with the design of speech synthesis systems.
  160.  
  161. [3] Speech Coding and Compression - both research and application matters.
  162.  
  163. [4] Phonetic/Linguistic Issues - coverage of linguistic and phonetic issues 
  164. which are relevant to speech technology applications.  Could cover parsing, 
  165. natural language processing, phonology and prosodic work.
  166.  
  167. [5] Speech System Design - issues relating to the application of speech
  168. technology to real-world problems.  Includes the design of user interfaces, 
  169. the building of real-time systems and so on.
  170.  
  171. [6] Other matters - relevant conferences, books, public domain software, 
  172. hardware and related products.
  173.  
  174. ------------------------------------------------------------------------
  175.  
  176. Q1.2: Where are the comp.speech archives?
  177.  
  178. comp.speech is being archived for anonymous ftp.
  179.  
  180.     ftp site:    svr-ftp.eng.cam.ac.uk (or 129.169.24.20).  
  181.     directory:    comp.speech/archive
  182.  
  183. comp.speech/archive contains the articles as they arrive.  Batches of 100
  184. articles are grouped into a shar file, along with an associated file of
  185. Subject lines.
  186.  
  187. Other useful information is also available in comp.speech/info.
  188.  
  189. ------------------------------------------------------------------------
  190.  
  191. Q1.3: Common abbreviations and jargon.
  192.  
  193. ANN   - Artificial Neural Network.
  194. ASR   - Automatic Speech Recognition.
  195. ASSP  - Acoustics Speech and Signal Processing
  196. AVIOS - American Voice I/O Society
  197. CELP  - Code-book excited linear prediction.
  198. COLING - Computational Linguistics
  199. DTW   - Dynamic time warping.
  200. FAQ   - Frequently asked questions.
  201. HMM   - Hidden markov model.
  202. IEEE  - Institute of Electrical and Electronics Engineers
  203. JASA  - Journal of the Acoustic Society of America
  204. LPC   - Linear predictive coding.
  205. LVQ   - Learned vector quantisation.
  206. NLP   - Natural Language Processing.
  207. NN    - Neural Network.
  208. TI    - Texas Instruments.
  209. TIMIT - A big speech database from TI and MIT - see Q1.6
  210. TTS   - Text-To-Speech (i.e. synthesis).
  211. VQ    - Vector Quantisation.
  212.  
  213. ------------------------------------------------------------------------
  214.  
  215. Q1.4: What are related newsgroups and mailing lists?
  216.  
  217.  
  218. NEWGROUPS
  219.  
  220. comp.ai - Artificial Intelligence newsgroup.  
  221.      Postings on general AI issues, language processing and AI techniques.
  222.      Has a good FAQ including NLP, NN and other AI information.
  223.  
  224. comp.ai.nat-lang - Natural Language Processing Group
  225.      Postings regarding Natural Language Processing.  Set up to cover
  226.      a broard range of related issues and different viewpoints.
  227.  
  228. comp.ai.nlang-know-rep - Natural Language Knowledge Representation
  229.      Moderated group covering Natural Language.
  230.  
  231. comp.ai.neural-nets - discussion of Neural Networks and related issues.  
  232.      There are often posting on speech related matters - phonetic recognition,
  233.      connectionist grammars and so on.
  234.  
  235. comp.compression - occasional articles on compression of speech.
  236.      FAQ for comp.compression has some info on audio compression standards.
  237.  
  238. comp.dcom.telecom - Telecommunications newsgroup.
  239.      Has occasional articles on voice products.
  240.  
  241. comp.dsp - discussion of signal processing - hardware and algorithms and more.
  242.      Has a good FAQ posting.
  243.      Has a regular posting of a comprehensive list of Audio File Formats.
  244.  
  245. comp.multimedia - Multi-Media discussion group.
  246.      Has occasional articles on voice I/O.
  247.  
  248. sci.lang - Language.  
  249.      Discussion about phonetics, phonology, grammar, etymology and lots more.
  250.  
  251. alt.sci.physics.acoustics - some discussion of speech production & perception.
  252.  
  253. alt.binaries.sounds.misc - posting of various sound samples
  254. alt.binaries.sounds.d - discussion about sound samples, recording and playback.
  255.  
  256.  
  257. MAILING LISTS
  258.  
  259. ECTL - Electronic Communal Temporal Lobe
  260.      Founder & Moderator: David Leip
  261.      Moderated mailing list for researchers with interests in computer speech 
  262.      interfaces. This list serves a broad community including persons from 
  263.      signal processing, AI, linguistics and human factors.
  264.      
  265.      To subscribe, send the following information to: 
  266.         ectl-request@snowhite.cis.uoguelph.ca
  267.         name, institute, department, daytime phone & e-mail address
  268.  
  269.      To access the archive, ftp snowhite.cis.uoguelph.ca, login as anonymous,
  270.      and supply your local userid as a password.  All the ECTL things can be
  271.      found in pub/ectl.
  272.  
  273. Prosody Mailing List
  274.     Unmoderated mailing list for discussion of prosody.  The aim is
  275.     to facilitate the spread of information relating to the research
  276.     of prosody by creating a network of researchers in the field.
  277.     If you want to participate, send the following one-line
  278.     message to "listserv@msu.edu" :-
  279.  
  280.         subscribe prosody Your Name
  281.  
  282. foNETiks
  283.     A moderated monthly newsletter distributed by e-mail. It carries 
  284.     job advertisements, notices of conferences, and other news of
  285.     general interest to phoneticians, speech scientists and others 
  286.     The editors are Linda Shockey and Gerry Docherty.  To subscribe
  287.     send the following 1 line message to 'mailbase@mailbase.ac.uk'
  288.  
  289.     join fonetiks your_first_name your_second_name
  290.  
  291. Digital Mobile Radio
  292.      Covers lots of areas include some speech topics including speech 
  293.      coding and speech compression.
  294.      Mail Peter Decker (dec@dfv.rwth-aachen.de) to subscribe.
  295.  
  296. ------------------------------------------------------------------------
  297.  
  298. Q1.5: What are related journals and conferences?
  299.  
  300. Try the following commercially oriented magazine:-
  301.  
  302.     Speech Technology - no longer published
  303.     Voice Technology News
  304.  
  305. Try the following technical journals (some contact addresses below):-
  306.  
  307.     IEEE Transactions on Speech and Audio Processing (from Jan 93)
  308.     IEEE Transactions on Acoustics, Speech, and Signal Processing
  309.         (ASSP) - now obsolete.
  310.     Computational Linguistics (COLING)
  311.     Computer Speech and Language
  312.     Journal of the Acoustical Society of America (JASA)
  313.     Transactions of IEEE ASSP
  314.     AVIOS Journal
  315.     ASR News
  316.  
  317. Try the following conferences:-
  318.  
  319.  ICASSP        Intl. Conference on Acoustics Speech and Signal Processing (IEEE)
  320.  ICSLP        Intl. Conference on Spoken Language Processing
  321.  EUROSPEECH European Conference on Speech Communication and Technology
  322.  AVIOS      American Voice I/O Society Conference
  323.  SST        Australian Speech Science and Technology Conference
  324.         SpeechTech
  325.  
  326.  
  327. Here are a few contact addresses:-
  328.  
  329. Publications:    IEEE Transactions on Speech and Audio Processing (from Jan 93)
  330.         IEEE Transactions on Acoustics, Speech, and Signal Processing
  331.             (ASSP) - now obsolete.
  332. Organization:    Institute of Electrical and Electronics Engineers (IEEE)
  333. Address:    IEEE Service Center
  334.         445 Hoes Lane
  335.         PO Box 1331
  336.         Piscataway, NJ  08855, USA
  337. Phone number:    1-800-678-IEEE
  338.         (201)981-0060
  339.  
  340. Publications:    Computer Speech and Language
  341. Organization:    Academic Press, Ltd.
  342. Address:    24-28 Oval Rd
  343.         London NW1
  344.         England
  345. Price:        $136 (Institutions), $58 (Individuals)
  346.  
  347. Publications:    Association for Computational Linguistics
  348. Organization:    Association for Computational Linguistics
  349. Address:    MIT Press Journals
  350.         55 Hayward St
  351.         Cambridge, MA  02142
  352. Phone number:     (617)253-2889
  353.  
  354.  
  355. ------------------------------------------------------------------------
  356.  
  357. Q1.6: What resources are available as handicap aids?
  358.  
  359. Can anyone provide information on speech technology aids for the deaf, 
  360. blind, speech impaired, physically impaired and other groups who may
  361. benefit from speech technology?
  362.  
  363.  
  364. Product Name:    SpeechViewer II
  365. Platform:    IBM Machines from Mod 25 on.
  366. Description:    SpeechViewer II is a speech therapy tool.  It provided 
  367.     graphical feedback of various speech features so that speech 
  368.     impaired individuals can improve their speech.  It works with an 
  369.     audio bandwidth of 7.3 Khz and thus allows the therapist to work 
  370.     with sustained vowels and fricatives.  A wide range of graphics
  371.     are used to provide adequate variability to hold client interest.
  372.     An extensive set of statistics are gathered which allows a therapist 
  373.     to do research or keep therapy records.
  374.     The speech therapy modules are:
  375.      o Awareness - Sound, Loudness, Pitch, Voicing Onset, Voicing
  376.      o Skill Building - Pitch, Voicing, Phonology
  377.      o Patterning - Pitch & Loudness - Waveform & Spectrogram, Spectra
  378.      o Clinical Management - Profiles, Models, Client Data
  379. Hardware: Requires an IBM M-ACPA (Multimedia-Audio Capture Playback
  380.     Adapter).  It has a TI TMS320C25 DSP chip.  The input sampling 
  381.     rate is 44.1 Khz stereo, 88.2 Khz mono.  This is a 16 bit card.  
  382.     It has the following jacks:  mic in, stereo line in, stereo line 
  383.     out, speaker out.  Note: This card is being replaced by Mwave 
  384.     technology.  For more info on Mwave contact Texas Instruments.
  385. Price:    The software is $2130 list, $1491 educational, part number 92F2066.
  386.     The M-ACPA is $370 list, $222 educational, part number 92F3378.
  387.     The MicroChannel adapter part number is 92F3379 (same price).
  388. Contact: The Psychological Corporation (TPC) [IBM Authorized Remarketer]
  389.     Phone: 1-800-228-0752
  390.     Or contact IBM on 1-800-426-4832.
  391.  
  392. ------------------------------------------------------------------------
  393.  
  394. Q1.7: What speech data is available?
  395.  
  396. A wide range of speech databases have been collected.  These databases 
  397. are primarily for the development of speech synthesis/recognition and for 
  398. linguistic research.  
  399.  
  400. Some databases are free but most appear to be available for a small cost.
  401. The databases normally require lots of storage space - do not expect to be 
  402. able to ftp all the data you want.
  403.  
  404. [There are too many to list here in detail - perhaps someone would like to 
  405.  set up a special posting on speech databases?]
  406.  
  407.  
  408.     PHONEMIC SAMPLES
  409.     ================
  410.  
  411. First, some basic data.  The following sites have samples of English phonemes
  412. (American accent I believe) in Sun audio format files.  See Question 1.7
  413. for information on audio file formats.
  414.  
  415.         sounds.sdsu.edu:/.1/phonemes
  416.         phloem.uoregon.edu:/pub/Sun4/lib/phonemes
  417.         sunsite.unc.edu:/pub/multimedia/sun-sounds/phonemes
  418.  
  419.  
  420.     HOMOPHONE LIST
  421.     ==============
  422.  
  423. A list of homophones in General American English is available by anonymous 
  424. FTP from the comp.speech archive site:
  425.  
  426.   machine name: svr-ftp.eng.cam.ac.uk
  427.   directory:    comp.speech/data
  428.   file name:    homophones-1.01.txt
  429.  
  430.  
  431.     LINGUISTIC DATA CONSORTIUM (LDC)
  432.     ================================
  433.  
  434. Information about the Linguistic Data Consortium is available via
  435. anonymous ftp from:    ftp.cis.upenn.edu    (130.91.6.8)
  436. in the directory:    /pub/ldc
  437.  
  438. Here are some excerpts from the files in that directory:
  439.  
  440. Briefly stated, the LDC has been established to broaden the collection
  441. and distribution of speech and natural language data bases for the
  442. purposes of research and technology development in automatic speech
  443. recognition, natural language processing and other areas where large
  444. amounts of linguistic data are needed.
  445.  
  446. Here is the brief list of corpora:
  447.  
  448.    * The TIMIT and NTIMIT speech corpora
  449.    * The Resource Management speech corpus (RM1, RM2)
  450.    * The Air Travel Information System (ATIS0) speech corpus
  451.    * The Association for Computational Linguistics - Data Collection 
  452.      Initiative text corpus (ACL-DCI)
  453.    * The TI Connected Digits speech corpus (TIDIGITS)
  454.    * The TI 46-word Isolated Word speech corpus (TI-46)
  455.    * The Road Rally conversational speech corpora (including "Stonehenge" 
  456.      and "Waterloo" corpora)
  457.    * The Tipster Information Retrieval Test Collection
  458.    * The Switchboard speech corpus ("Credit Card" excerpts and portions
  459.      of the complete Switchboard collection)
  460.  
  461. Further resources to be made available within the first year (or two):
  462.  
  463.    * The Machine-Readable Spoken English speech corpus (MARSEC)
  464.    * The Edinburgh Map Task speech corpus
  465.    * The Message Understanding Conference (MUC) text corpus of FBI 
  466.      terrorist reports
  467.    * The Continuous Speech Recognition - Wall Street Journal speech 
  468.      corpus (WSJ-CSR)
  469.    * The Penn Treebank parsed/tagged text corpus
  470.    * The Multi-site ATIS speech corpus (ATIS2)
  471.    * The Air Traffic Control (ATC) speech corpus
  472.    * The Hansard English/French parallel text corpus
  473.    * The European Corpus Initiative multi-language text corpus (ECI) 
  474.    * The Int'l Labor Organization/Int'l Trade Union multi-language 
  475.      text corpus (ILO/ITU)
  476.    * Machine-readable dictionaries/lexical data bases (COMLEX, CELEX)
  477.  
  478. The files in the directory include more detailed information on the 
  479. individual databases.  For further information contact
  480.  
  481.     Linguistic Data Consortium
  482.     441 Williams Hall
  483.     University of Pennsylvania
  484.     Philadelphia, PA 19104-6305
  485.     Phone:   +1 (215) 898-0464
  486.     Fax:     +1 (215) 573-2175
  487.     e-mail:  ldc@unagi.cis.upenn.edu
  488.  
  489.  
  490.     Center for Spoken Language Understanding (CSLU)
  491.     ===============================================
  492.  
  493. 1. The ISOLET speech database of spoken letters of the English alphabet. 
  494. The speech is high quality (16 kHz with a noise cancelling microphone).  
  495. 150 speakers x 26 letters of the English alphabet twice in random order.  
  496. The "ISOLET" data base can be purchased for $100 by sending an email request 
  497. to vincew@cse.ogi.edu.  (This covers handling, shipping and medium costs).  
  498. The data base comes with a technical report describing the data.
  499.  
  500. 2. CSLU has a telephone speech corpus of 1000 English alphabets.  Callers 
  501. recite the alphabet with brief pauses between letters.  This database is 
  502. available to not-for-profit institutions for $100. The data base is described 
  503. in the proceedings of the International Conference on Spoken Language 
  504. Processing.  Contact vincew@cse.ogi.edu if interested.
  505.  
  506.  
  507.        PhonDat - A Large Database of Spoken German
  508.        ===========================================
  509.  
  510. The PhonDat continuous speech corpora are now available on
  511. CD-ROM media (ISO 9660 format).
  512.  
  513.     PhonDat I  (Diphone Corpus)        : 6 CDs    (1140.- DM)
  514.     PhonDat II (Train Enquiries Corpus): 1 CD     ( 190.- DM)
  515.  
  516. PhonDat I comprises approx. 20.000, PhonDat II approx. 1500 
  517. signal files in high quality 16-bit 16 KHz recording.  The
  518. corpora come with a documentation containing the orthographic 
  519. transcription and a citation form of the utterances, as well as a 
  520. detailed file format description.  A narrow phonetic transcription 
  521. is available for selected files from corpus I and II.
  522.  
  523. For information and orders contact
  524.  
  525.    Barbara Eisen
  526.    Institut fuer Phonetik
  527.    Schellingstr. 3 / II
  528.    D 80799 Munich 40
  529.  
  530.    Tel: +49 / 89 / 2180 -2454 or -2758
  531.    Fax: +49 / 89 / 280 03 62
  532.  
  533.  
  534.           Oxford Acoustic Phonetic Database
  535.           =================================
  536.  
  537. Available on compact Disc, from J.B. Pickering and B.S. Rosner.
  538. It contains data on vowel-consonant and consonant-vowel combinations 
  539. in both stressed and unstressed locations.  The language covered 
  540. include French, German, Hungarian, Italian, Japanese, British English, 
  541. Spanish and English.  
  542.  
  543. Does anyone know a contact email or snail mail address?
  544.  
  545. ------------------------------------------------------------------------
  546.  
  547. Q1.8: Speech File Formats, Conversion and Playing.
  548.  
  549. Section 2 of this FAQ has information on mu-law coding.
  550.  
  551. A very good and very comprehensive list of audio file formats is prepared
  552. by Guido van Rossum.  The list is posted regularly to comp.dsp and
  553. alt.binaries.sounds.misc, amongst others.  It includes information on 
  554. sampling rates, hardware, compression techniques, file format definitions, 
  555. format conversion, standards, programming hints and lots more.  It is much
  556. too long to include within this posting.
  557.  
  558. It is also available by ftp 
  559.     from:         ftp.cwi.nl
  560.     directory:    /pub 
  561.     file:         AudioFormats<version>
  562.  
  563. ------------------------------------------------------------------------
  564.  
  565. Q1.9: What "Speech Laboratory Environments" are available?
  566.  
  567. First, what is a Speech Laboratory Environment?  A speech lab is a
  568. software package which provides the capability of recording, playing,
  569. analysing, processing, displaying and storing speech.  Your computer
  570. will require audio input/output capability.  The different packages
  571. vary greatly in features and capability - best to know what you want
  572. before you start looking around.
  573.  
  574. Most general purpose audio processing packages will be able to process speech
  575. but do not necessarily have some specialised capabilities for speech (e.g.
  576. formant analysis).
  577.  
  578. The following article provides a good survey.
  579.  
  580.   Read, C., Buder, E., & Kent, R. "Speech Analysis Systems: An Evaluation"
  581.   Journal of Speech and Hearing Research, pp 314-332, April 1992.
  582.  
  583.  
  584. Package: Entropic Signal Processing System (ESPS) and Waves
  585. Platform: Range of Unix platforms.
  586. Description: ESPS is a very comprehensive set of speech analysis/processing 
  587.     tools for the UNIX environment.  The package includes UNIX commands, 
  588.     and a comprehensive C library (which can be accessed from other 
  589.     languages).  Waves is a graphical front-end for speech processing.  
  590.     Speech waveforms, spectrograms, pitch traces etc can be displayed, 
  591.     edited and processed in X windows and Openwindows (versions 2 & 3).
  592.     The HTK (Hidden Markov Model Toolkit) is now available from Entropic.
  593.     HTK is described in some detail in Section 5 of this FAQ - the
  594.     section on Speech Recognition.
  595. Cost:   On request.
  596. Contact: Entropic Research Laboratory, Washington Research Laboratory,
  597.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  598.     (202) 547-1420.  email - info@wrl.epi.com
  599.  
  600.  
  601. Package: CSRE: Canadian Speech Research Environment
  602. Platform: IBM/AT-compatibles
  603. Description: CSRE is a comprehensive, microcomputer-based system designed 
  604.     to support speech research.  CSRE provides a powerful, low-cost 
  605.     facility in support of speech research, using mass-produced and 
  606.     widely-available hardware. The project is non-profit, and relies 
  607.     on the cooperation of researchers at a number of institutions and
  608.     fees generated when the software is distributed.  Functions 
  609.     include speech capture, editing, and replay; several alternative 
  610.     spectral analysis procedures, with color and surface/3D displays; 
  611.     parameter extraction/tracking and tools to automate measurement 
  612.     and support data logging; alternative pitch-extraction systems; 
  613.     parametric speech (KLATT80) and non-speech acoustic synthesis, 
  614.     with a variety of supporting productivity tools; and a 
  615.     comprehensive experiment generator, to support behavioral testing 
  616.     using a variety of common testing protocols.
  617.     A paper about the whole package can be found in:
  618.        Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  619.        Proc. of the Second Intl. Conf. on Spoken Language Processing,
  620.        Edmonton: University of Alberta, pp. 1127-1130.
  621. Hardware:     Can use a range of data aqcuisition/DSP
  622. Cost:    Distributed on a cost recovery basis.
  623. Availability: For more information on availability
  624.     contact Krystyna Marciniak - email march@uwovax.uwo.ca
  625.     Tel (519) 661-3901  Fax (519) 661-3805.
  626.     For technical information  - email ramji@uwovax.uwo.ca
  627. Note: Also included in Q5.4 on speech synthesis packages.
  628.  
  629.  
  630. Package: OGI Speech Tools from the Center for Spoken Language 
  631.     Understanding (CSLU) at the Oregon Graduate Institute of Science 
  632.     and Technology (Portland Oregon)
  633. Platform: Unix????
  634. Description: The OGI Speech tools include :-
  635.     1. An X windows display tool (LYRE) for displaying data in a time 
  636.        synchronous fashion for a. the speech signal b. spectrograms
  637.             c. phoneme labels, and other information.
  638.     2. A Neural Network (NOPT) training package.
  639.     3. An set of C library routines (LIBNSPEECH) for the manipulation 
  640.        of speech data, including:  a. PLP Analysis, b. Rasta PLP 
  641.        Analysis, c. Linear Predictive Coding, d. Mel Cepstrum Coding,
  642.        e. Fast Fourier Transform
  643.     4. A set of utilities for converting file formats such as ADC, NIST,
  644.        mu-law, binary files, and ascii.  Includes filtering.
  645.     5. A database utility (find_phone) to automate speech database
  646.        related enquiries.  It allows the user to specify a particular 
  647.        label or set of labels in a given context, display all occurrences 
  648.        of the label, and relabel the occurrences if desired.
  649.     6. A Vector-Quantizer based on the Linde Buzo and Gray (LBG) 
  650.        algorithm.
  651.     7. A set of PEARL Scripts which have been used mainly to automate
  652.        the use of the OGI Speech Tools. 
  653.     8. MAN Pages for all routines and programs developed, as well as
  654.        a User manual in both in postscript and {\bf tex} format.
  655. Misc: Software is written in ANSI C.
  656. Availability: By anonymous ftp from
  657.     speech.cse.ogi.edu:/pub/tools/
  658. Contact: Try tools@cse.ogi.edu
  659.  
  660.  
  661. Package: Signalyze 3.0 from InfoSignal
  662. Platform: Macintosh
  663. Description: Signalyze's basic conception revolves around up to 100 
  664.     signals, displayed synchronously in HyperCard fashion on "cards".
  665.     The program offers a complement of signal editing features, 
  666.     quite a few spectral analysis tools, manual scoring tools, pitch 
  667.     extraction routines, a good set of signal manipulation tools, and 
  668.     extensive input-output capacity.
  669.     Handles multiple file formats: Signalyze, MacSpeech Lab, AudioMedia, 
  670.     SoundDesigner II, SoundEdit/MacRecorder, SoundWave, three sound 
  671.     resource formats, and ASCII-text.
  672.     Sound I/O: Direct sound input from MacRecorder and similar devices, 
  673.     AudioMedia, AudioMedia II and AD IN, some MacADIOS boards and devices,
  674.     Apple sound input (built-in microphone). Sound output via Macintosh 
  675.     internal sound, via SoundManager 3.0, some MacADIOS boards and devices
  676.     as well as via the Digidesign 16-bit boards.
  677.     It has a range of capabilities for creating, editing and manipulating
  678.     label files with flexibility in labelling format.
  679. Compatibility: MacPlus and higher (including II, IIx, IIcx, IIci, IIfx, 
  680.     IIvx, IIvi, Portable, all PowerBooks, Centris and Quadras). Takes 
  681.     advantage of large and multiple screens and 16/256 color/grayscales. 
  682.     System 7.0 compatible. Runs in background with adjustable priority.
  683. Misc: A demo available upon request.
  684.     Manuals and tutorial included.
  685.     It is available in English, French, and German.
  686.     An UPDATER to version 2.48 is now available in:
  687.       - The UNIL Gopher server (see last page of InfoSignal News 8)
  688.       - The LAIP FTP server. Address: MACFL4082.unil.ch, machine no.
  689.         130.223.104.31, login: anonymous, password: your email
  690.     Also available are a demo program, and current questions and answers.
  691. Cost: Individual licence US$350, site license US$500, plus shipping.
  692.     Upgrades from version 2.0 are available.
  693. Contact: North America - Network Technology Corporation
  694.         91 Baldwin St., Charlestown MA 02129
  695.         Fax: 617-241-5064   Phone: 617-241-9205
  696.     Elsewhere -  InfoSignal Inc.
  697.         C.P. 73, 1015 LAUSANNE, Switzerland, 
  698.         FAX: +41 21 691-1372,
  699.         Email: 76357.1213@COMPUSERVE.COM.
  700.  
  701.  
  702. Package: Kay Elemetrics CSL (Computer Speech Lab) 4300
  703. Platform: Minimum IBM PC-AT compatible with extended memory (min 2MB) 
  704.     with at least VGA graphics. Optimal would be 386 or 486 machine 
  705.     with more RAM for handling larger amounts of data.
  706. Description: Speech analysis package, with optional separate LPC program 
  707.     for analysis/synthesis. Uses its own file format for data, but has 
  708.     some ability to export data as ascii. The main editing/analysis prog 
  709.     (but not the LPC part) has its own macro language, making it easy to 
  710.     perform repetitive tasks.  Probably not much use without the extra 
  711.     LPC program, which also allows manipulation of pitch, formant and 
  712.     bandwidth parameters.
  713.     Hardware includes an internal DSP board for the PC (requires ISA 
  714.     slot), and an external module containing signal processing chips 
  715.     which does A/D and D/A conversion. 
  716.     A speaker and microphone are supplied.
  717. Misc:  A programmers kit is available for programming signal processing
  718.     chips (experts only).
  719.     Manuals included.
  720. Cost: Recently approx 6000 pounds sterling. (Less in USA?)
  721. Availibility: UK distributors are Wessex Electronics, 
  722.         114-116 North Street, Downend, Bristol, B16 5SE 
  723.         Tel: 0272 571404. 
  724.     In USA: Kay Elemetrics Corp, 
  725.         12 Maple Avenue, PO Box 2025, Pine Brook, NJ 07058-9798
  726.         Tel:(201) 227-7760
  727.  
  728.  
  729. Package: MacSpeech Lab II (MSL II)
  730. Platform: Macintosh
  731. Description: A sound analysis and acquisition for Macs.  MSL II delivers 
  732.     the most common functions for speech analysis (FFTs, LPCs, f0 
  733.     extraction, etc.) & produces grayscale spectrographic displays.
  734.     Can be used for various speech technology and phonetic training
  735.     tasks.  The software an trade off accuracy and speech.
  736. Hardware: requires MacADIOS ("Macintosh Analog/Digital Input/Output
  737.     System") hardware for speech I/O at 12/16 bits.  
  738. Misc: Software no longer updated by GW Instruments; MSL soft/hardware will 
  739.     not perform input/output on Quadras, for example, though analysis 
  740.     seems fine.  Known to operate properly on systems as high as IIcx & 
  741.     II fx.
  742. Cost: $4990 (in May '92 price list; no MSL soft/hardware package
  743.     listed in January '93).
  744. Contact: GW Instruments
  745.     35 Medford Street, Somerville, MA  02143
  746.     Phone: (617) 625-4096   Fax: (617) 625-1322
  747.  
  748.  
  749. Package: Ptolemy
  750. Platform: Sun SPARC, DecStation (MIPS), HP (hppa).
  751. Description: Ptolemy provides a highly flexible foundation for the 
  752.     specification, simulation, and rapid prototyping of systems.  
  753.     It is an object oriented framework within which diverse models 
  754.     of computation can co-exist and interact.  Ptolemy can be used 
  755.     to model entire systems.
  756.     Ptolemy has been used for a broad range of applications including
  757.     signal processing, telecomunications, parallel processing, wireless
  758.     communications, network design, radio astronomy, real time systems, 
  759.     and hardware/software co-design.  Ptolemy has also been used as a lab
  760.     for signal processing and communications courses.
  761.     Ptolemy has been developed at UC Berkeley over the past 3 years.
  762.     Further information, including papers and the complete release
  763.     notes, is available from the FTP site.
  764. Cost: Free
  765. Availability: The source code, binaries, and documentation are available 
  766.     by anonymous ftp from "ptolemy.bekeley.edu" - see the README file -
  767.         ptolemy.berkeley.edu:/pub/README
  768.  
  769.  
  770. Package: Khoros
  771. Description: Public domain image processing package with a basic DSP
  772.     library.  Not particularly applicable to speech, but not bad
  773.     for the price.
  774. Cost:    FREE
  775. Availability: By anonymous ftp from pprg.eece.unm.edu
  776.  
  777.  
  778. Package: SpeechViewer II
  779. Description: Speech Therapy Tool
  780.     See the detailed description in the handicap section (Q1.6).
  781.  
  782.  
  783.  
  784. Can anyone provide information on capability and availability of the
  785. following package?
  786.  
  787.     ILS ("Interactive Laboratory System")
  788.  
  789. ------------------------------------------------------------------------
  790.  
  791. Q1.10: Miscelaneous Software and Other Resources.
  792.  
  793. Resource: CMU dictionary
  794. Description: Phonemic transcriptions of 100,000 English words.
  795.     (Presumably with American English pronunciation.)
  796. Availability: By anonymous ftp from
  797.         ftp.cs.cmu.edu:project/fgdata/dict
  798.  
  799.  
  800. Package: Network Audio System Release 1.1
  801. Platforms: Various (includes SunOS, Solaris, SGI)
  802. Description: A device-independent mechanism for transferring, playing
  803.     and recording audio signals over a network.  Has a range of
  804.     features suited to networks.
  805. Cost: Free
  806. Availability: By anonymous ftp from
  807.     ftp.x.org:/contrib/netaudio/netaudio-1.1.tar.Z
  808.     Also available in the same directory are document files and
  809.     some sample sounds.
  810.  
  811. Pacakage: NEVOT (1.4v) from AT&T BL
  812. Platforms: Sun Sparc Station (SunOS 4.1.x) and Silicon Graphics
  813. Description: Audio-conferencing tool which supports both point-to-point 
  814.     and broadcasting of audio using multicast IP.
  815.     Audio encoding:
  816.                 + PCM 64kb/s 8-bits u-law encoded 8KHz PCM (G.711)
  817.                 + ADPCM 32 kb/s [Sun only] (G.721)
  818.                 + DVI ADPCM 32 kb/s
  819.                 + ADPCM 24 kb/s [Sun only] (G.723)
  820.                 + CELP 4.8 kb/s
  821.                 + LPC 2.4 kb/s
  822.     Source is available.
  823. Availability: by anonymous ftp from
  824.     gaia.cs.umass.edu:pub/nevot
  825. Contact: Henning Schulzrinne (hgs@researc.att.com)
  826.  
  827.  
  828.  
  829. =======================================================================
  830.  
  831. SECTION 2 - Signal Processing for Speech
  832.  
  833.  
  834. Q2.1: What sampling do I need for speech?
  835.  
  836. For recorded speech to be understood by humans you need an 8kHz
  837. sampling rate or more and at least 8 bit sampling.  This produces
  838. poor quality speech - but in can be understood.
  839.  
  840. Improvements can be achieved by increasing the number of bits
  841. in sampling to 12bits or 16bits, or by using a non-linear encoding
  842. technique such as mu-law or A-law (see Q2.7).  This improves
  843. the "signal-to-noise" ratio.
  844.  
  845. Increasing the sampling rate above 8kHz, say to 10kHz, 16kHz or 20Khz,
  846. improves the frequency response: the higher the sampling frequency
  847. the better the high frequency content will be.  A 16kHz sampling rate
  848. is a reasonable target for high quality speech recording and playback.
  849.  
  850. When doing speech recognition you need to remember that the your
  851. computer is not as good as your ear so it will have trouble with poor
  852. qulaity sounds.  The choice of an appropriate sampling setup depends
  853. very much on the speech recognition task and the amount of computer
  854. power available.
  855.  
  856. ------------------------------------------------------------------------
  857.  
  858. Q2.2: How do I find the pitch of a speech signal?
  859.  
  860. This topic comes up regularly in the comp.dsp newsgroup.  Question 2.5
  861. of the FAQ posting for comp.dsp gives a comprehensive list of references
  862. on the definition, perception and processing of pitch.
  863.  
  864. ------------------------------------------------------------------------
  865.  
  866. Q2.3: How do I find the start and end points of a speech signal?
  867.  
  868. A large number of papers have been presented on this task.  Try the
  869. following papers:- 
  870.  
  871. Rabiner LR, Sambur MR, "An Algorithm for Determining the Endpoints
  872.    of Isolated Utterances", Bell System Technical Journal, Vol 54,
  873.    No. 2, pp 297-315, 1975.
  874.  
  875. Drago, P.G. et al.  "Digital Dynamic Speech Detectors."  IEEE Trans on
  876.    Communications, Vol 26, No 1, Jan 78, pp. 140-145.
  877.  
  878. Newman, W.C.  "Detecting Speech with an Adapative Neural Network."
  879.    Electronic Design.  22 March 1990.
  880.  
  881. ------------------------------------------------------------------------
  882.  
  883. Q2.4: Where can I find FFT software?
  884.  
  885. Try the following file - available by anonymous ftp :-
  886.  
  887.     usc.edu:/pub/C-numanal/fft-stuff.tar.gz
  888.  
  889. It contains a series of optimised fft routines, including mixed-radix
  890. algorithms.  Note that the .gz suffix indicates GNU zip format.
  891.  
  892. ------------------------------------------------------------------------
  893.  
  894. Q2.5: What signal processing techniques are used in speech technology?
  895.  
  896. This question is far to big to be answered in a FAQ posting.  Fortunately
  897. there are many good books which answer the question!
  898.  
  899. Some good introductory books include
  900.  
  901.    Digital processing of speech signals; L. R. Rabiner, R. W. Schafer.
  902.    Englewood Cliffs; London: Prentice-Hall, 1978
  903.  
  904.    Voice and Speech Processing; T. W. Parsons.
  905.    New York; McGraw Hill 1986
  906.  
  907.    Computer Speech Processing; ed Frank Fallside, William A. Woods
  908.    Englewood Cliffs: Prentice-Hall, c1985
  909.  
  910.    Digital speech processing : speech coding, synthesis, and recognition
  911.    edited by A. Nejat Ince; Kluwer Academic Publishers, Boston, c1992
  912.  
  913.    Speech science and technology; edited by Shuzo Saito
  914.    pub. Ohmsha, Tokyo, c1992
  915.  
  916.    Speech analysis; edited by Ronald W. Schafer, John D. Markel
  917.    New York, IEEE Press, c1979
  918.  
  919.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  920.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  921.    1987.
  922.  
  923. ------------------------------------------------------------------------
  924.  
  925. Q2.6: What speech sampling and signal processing hardware can I use?
  926.  
  927. In addition to the following information, have a look at the Audio File
  928. format document prepared by Guido van Rossum (see details in Section 1.7).
  929.  
  930.  
  931. Product: Sun standard audio port (SPARC 1 & 2)
  932. Input:  1 channel, 8 bit mu-law encoded (telephone quality)
  933. Output: 1 channel, 8 bit mu-law encoded (telephone quality)
  934.  
  935.  
  936. Product:  Ariel
  937. Platform: Sun + others?
  938. Input:  2 channels, 16bit linear, sample rate 8-96kHz (inc 32, 44.1, 48kHz).
  939. Output: 2 channels, 16bit linear, sample rate 8-50kHz (inc 32, 44.1, 48kHz).
  940. Contact: Ariel Corp.433 River Road,
  941.     Highland Park, NJ 08904.
  942.     Ph: 908-249-2900  Fax: 908-249-2123  DSP BBS: 908-249-2124
  943.  
  944.  
  945. Product:  IBM RS/6000 ACPA (Audio Capture and Playback Adapter)
  946. Description: The card supports PCM, Mu-Law, A-Law and ADPCM at 44.1kHz 
  947.     (& 22.05, 11.025, 8kHz) with 16-bits of resolution in stereo.  
  948.     The card has  a built-in DSP (don't know which one).  The device 
  949.     also supports various formats for the output data, like big-endian, 
  950.     twos complement, etc.  Good noise immunity.
  951.     The card is used for IBM's VoiceServer (they use the DSP for 
  952.     speech recognition).  Apparently, the IBM voiceserver has a 
  953.     speaker-independent vocabulary of over 20,000 words and each 
  954.     ACPA can support two independent sessions at once.
  955. Cost:    $US495
  956. Contact: ?
  957.  
  958. Product: Sound Galaxy NX , Aztech Systems
  959. Platform: PC - DOS,Windows 3.1
  960. Cost: ??
  961. Input: 8bit linear, 4-22 kHz.
  962. Output: 8bit linear, 4-44.1 kHz 
  963. Misc: 11-voice FM Music Synthesizer YM3812; Built-in power amplifier;
  964.     DSP signal processing support - ST70019SB
  965.     Hardware ADPCM decompression (2:1,3:1,4:1)
  966.     Full "AdLib" and "Sound Blaster" compatbility.
  967.     Software includes a  simple Text-to-Speech program "Monologue".
  968.  
  969.  
  970. Product: Sound Galaxy NX PRO, Aztech Systems
  971. Platform: PC - DOS,Windows 3.1
  972. Cost: ??
  973. Input: 2 * 8bit linear, 4-22.05 kHz(stereo), 4-44.1 KHz(mono).
  974. Output: 2 * 8bit linear, 4-44.1 kHz(stereo/mono)
  975. Misc: 20-voice FM Music Synthesizer; Built-in power amplifier;
  976.     Stereo Digital/Analog Mixer; Configuration in EEPROM.
  977.     Hardware  ADPCM decompression (2:1,3:1,4:1).
  978.     Includes DSP signal processing support
  979.     Full "AdLib" and "Sound Blaster Pro II" compatybility.
  980.     Software includes a simple Text-to-Speech program "Monologue"
  981.     and Sampling laboratory for Windows 3.1: WinDAT.
  982. Contact: USA (510)6238988
  983.  
  984.  
  985. Product Name:    ATI Stereo F/X Sound Board
  986. Platform:    PC XT or AT - DOS, Windows 3.0, 3.1
  987. Cost:        $120 Canadian
  988. Description:
  989.     Input - 8 bit ADC, 44.1 kHz mono, 22.05 kHz Stereo.
  990.     Output - Dynamic range = 48 dB,  32 anti-aliasing filters
  991.     Adds Stereo effect to existing mono Adlib or Sound Blaster apps.
  992.     11-voice YAMAHA FM Music Synthesizer
  993.     Built-in 8 watt power amplifier, 4 watts per channel.
  994.     Volume ctrl on rear.
  995.     2 Joystick input, software setup (no switches), software included.  
  996.     "AdLib" and "Sound Blaster" compatibility.
  997.     DMA support for high speed digital audio.
  998.     ADPCM decomp @ 4:1, 3:1, 2:1.  Will play .WAV files.
  999.     Optional MIDI I/O port $79. (MIDI IN, OUT, THRU, and sequencer).
  1000. Contact: ATI Technologies Inc.
  1001.     3761 Victoria Park Avenue
  1002.     Scarborough, Ontario
  1003.     CANADA, M1W 3S2
  1004.     Ph:  (416) 756-0711   Fax: (416) 756-0720
  1005.     BBS: (416) 764-9404 (9600 baud  N.8.1)
  1006.  
  1007.  
  1008.                        Other PC Sound Cards 
  1009. ============================================================================
  1010. sound          stereo/mono              compatible     included   voices
  1011. card           & sample rate            with           ports
  1012. ============================================================================
  1013. Adlib Gold     stereo: 8-bit 44.1khz    Adlib ?        audio      20 (opl3)
  1014. 1000                  16-bit 44.1khz                   in/out,    +2 digital
  1015.                mono: 8-bit 44.1khz                     mic in,    channels
  1016.                     16-bit 44.1khz                     joystick,
  1017.                                                        MIDI
  1018.  
  1019. Sound Blaster  mono: 8-bit 22.1khz      Adlib          audio       11 synth.
  1020.                FM synth with                           in/out,
  1021.                2 operators                             joystick,
  1022.  
  1023. Sound Blaster  stereo: 8-bit 22.05khz   Adlib          audio       22
  1024. Pro Basic      mono: 8-bit 44.1khz      Sound Blaster  in/out,
  1025.                                                        joystick,
  1026.  
  1027. Sound Blaster  stereo: 8-bit 22.05khz   Adlib          audio       11
  1028. Pro            mono: 8-bit 44.1khz      Sound Blaster  in/out
  1029.                                                        joystick,
  1030.                                                        MIDI, SCSI
  1031.  
  1032. Sound Blaster  stereo: 8-bit 4-44.1khz  Sound Blaster  audio       20
  1033. 16 ASP         stereo: 16-bit 4-44.1khz                in/out,
  1034.                                                        joystick,
  1035.                                                        MIDI
  1036.  
  1037. Audio Port     mono: 8-bit 22.05khz     Adlib          audio       11
  1038.                                         Sound Blaster  in/out,
  1039.                                                        joystick
  1040.  
  1041. Pro Audio      stereo: 8-bit 44.1khz    Adlib          audio,      20
  1042. Spectrum +                              Pro Audio      in/out,
  1043.                                         Spectrum       joystick
  1044.  
  1045.  
  1046. Pro Audio      stereo: 16-bit 44.1khz   Adlib          audio       20
  1047. Spectrum 16                             Pro Audio      in/out,
  1048.                                         Spectrum       joystick,
  1049.                                         Sound Blaster  MIDI, SCSI
  1050.  
  1051. Thunder Board  stereo: 8-bit 22khz      Adlib          audio       11
  1052.                                         Sound Blaster  in/out,
  1053.                                                        joystick
  1054.  
  1055. Gravis         stereo: 8-bit 44.1khz    Adlib,         audio line  32 sampled
  1056. Ultrasound     mono: 8-bit 44.1khz      Sound Blaster  in/out,     32 synth.
  1057.                                                        amplified
  1058.                                                        out,
  1059.                (w/16-bit daughtercard)                 mic in, CD
  1060.                stereo: 16-bit 44.1khz                  audio in,
  1061.                mono: 16-bit 44.1khz                    daughterboard
  1062.                                                        ports (for
  1063.                                                        SCSI and
  1064.                                                        16-bit)
  1065.  
  1066. MultiSound     stereo: 16-bit 44.1kHz   Nothing        audio       32 sampled
  1067.                64x oversampling                        in/out,
  1068.                                                        joystick,
  1069.                                                        MIDI
  1070.  
  1071. =============================================================================
  1072.  
  1073.  
  1074. Can anyone provide information on Mac, NeXT and other hardware?
  1075.  
  1076. Product:  xxx
  1077. Platform: PC, Mac, Sun, ...
  1078. Rough Cost (pref $US):
  1079. Input: e.g. 16bit linear, 8,10,16,32kHz.
  1080. Output: e.g. 16bit linear, 8,10,16,32kHz.
  1081. DSP: signal processing support
  1082. Other:
  1083. Contact:
  1084.  
  1085. ------------------------------------------------------------------------
  1086.  
  1087. Q2.7: How do I convert to/from mu-law format?
  1088.  
  1089. Mu-law coding is a form of compression for audio signals including speech.
  1090. It is widely used in the telecommunications field because it improves the
  1091. signal-to-noise ratio without increasing the amount of data.  Typically,
  1092. mu-law compressed speech is carried in 8-bit samples.  It is a companding
  1093. technqiue.  That means that carries more information about the smaller signals
  1094. than about larger signals.  Mu-law coding is provided as standard for the
  1095. audio input and output of the SUN Sparc stations 1&2 (Sparc 10's are linear).
  1096.  
  1097.  
  1098. On SUN Sparc systems have a look in the directory /usr/demo/SOUND.  Included
  1099. are table lookup macros for ulaw conversions.  [Note however that not all
  1100. systems will have /usr/demo/SOUND installed as it is optional - see your
  1101. system admin if it is missing.]
  1102.  
  1103.  
  1104. OR, here is some sample conversion code in C.
  1105.  
  1106. # include <stdio.h>
  1107.  
  1108. unsigned char linear2ulaw(/* int */);
  1109. int ulaw2linear(/* unsigned char */);
  1110.  
  1111. /*
  1112. ** This routine converts from linear to ulaw.
  1113. **
  1114. ** Craig Reese: IDA/Supercomputing Research Center
  1115. ** Joe Campbell: Department of Defense
  1116. ** 29 September 1989
  1117. **
  1118. ** References:
  1119. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  1120. ** 2) "A New Digital Technique for Implementation of Any
  1121. **     Continuous PCM Companding Law," Villeret, Michel,
  1122. **     et al. 1973 IEEE Int. Conf. on Communications, Vol 1,
  1123. **     1973, pg. 11.12-11.17
  1124. ** 3) MIL-STD-188-113,"Interoperability and Performance Standards
  1125. **     for Analog-to_Digital Conversion Techniques,"
  1126. **     17 February 1987
  1127. **
  1128. ** Input: Signed 16 bit linear sample
  1129. ** Output: 8 bit ulaw sample
  1130. */
  1131.  
  1132. #define ZEROTRAP    /* turn on the trap as per the MIL-STD */
  1133. #undef ZEROTRAP
  1134. #define BIAS 0x84   /* define the add-in bias for 16 bit samples */
  1135. #define CLIP 32635
  1136.  
  1137. unsigned char linear2ulaw(sample) int sample; {
  1138.   static int exp_lut[256] = {0,0,1,1,2,2,2,2,3,3,3,3,3,3,3,3,
  1139.                              4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,
  1140.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  1141.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  1142.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1143.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1144.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1145.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1146.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1147.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1148.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1149.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1150.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1151.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1152.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1153.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7};
  1154.   int sign, exponent, mantissa;
  1155.   unsigned char ulawbyte;
  1156.  
  1157.   /* Get the sample into sign-magnitude. */
  1158.   sign = (sample >> 8) & 0x80;        /* set aside the sign */
  1159.   if(sign != 0) sample = -sample;        /* get magnitude */
  1160.   if(sample > CLIP) sample = CLIP;        /* clip the magnitude */
  1161.  
  1162.   /* Convert from 16 bit linear to ulaw. */
  1163.   sample = sample + BIAS;
  1164.   exponent = exp_lut[( sample >> 7 ) & 0xFF];
  1165.   mantissa = (sample >> (exponent + 3)) & 0x0F;
  1166.   ulawbyte = ~(sign | (exponent << 4) | mantissa);
  1167. #ifdef ZEROTRAP
  1168.   if (ulawbyte == 0) ulawbyte = 0x02;    /* optional CCITT trap */
  1169. #endif
  1170.  
  1171.   return(ulawbyte);
  1172. }
  1173.  
  1174. /*
  1175. ** This routine converts from ulaw to 16 bit linear.
  1176. **
  1177. ** Craig Reese: IDA/Supercomputing Research Center
  1178. ** 29 September 1989
  1179. **
  1180. ** References:
  1181. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  1182. ** 2) MIL-STD-188-113,"Interoperability and Performance Standards
  1183. **     for Analog-to_Digital Conversion Techniques,"
  1184. **     17 February 1987
  1185. **
  1186. ** Input: 8 bit ulaw sample
  1187. ** Output: signed 16 bit linear sample
  1188. */
  1189.  
  1190. int ulaw2linear(ulawbyte) unsigned char ulawbyte; {
  1191.   static int exp_lut[8] = { 0, 132, 396, 924, 1980, 4092, 8316, 16764 };
  1192.   int sign, exponent, mantissa, sample;
  1193.  
  1194.   ulawbyte = ~ulawbyte;
  1195.   sign = (ulawbyte & 0x80);
  1196.   exponent = (ulawbyte >> 4) & 0x07;
  1197.   mantissa = ulawbyte & 0x0F;
  1198.   sample = exp_lut[exponent] + (mantissa << (exponent + 3));
  1199.   if(sign != 0) sample = -sample;
  1200.  
  1201.   return(sample);
  1202. }
  1203.  
  1204.  
  1205.  
  1206. =======================================================================
  1207.  
  1208. SECTION 3 - Speech Coding and Compression
  1209.  
  1210. Q3.1: Speech compression techniques.
  1211.  
  1212. Can anyone provide a 1-2 page summary on speech compression?  Topics to
  1213. cover might include common technqiues, where speech compression might be 
  1214. used and perhaps something on why speech is difficult to compress.
  1215.  
  1216.   [The FAQ for comp.compression includes a few questions and answers
  1217.    on the compression of speech.]
  1218.  
  1219. ------------------------------------------------------------------------
  1220.  
  1221. Q3.2: What are some good references/books on coding/compression?
  1222.  
  1223.   Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  1224.     Addison Wesley series in Electrical Engineering: Digital Signal 
  1225.     Processing, 1987.
  1226.  
  1227.   Bishnu Atal in ed. Fallside, F. and W. Woods, ed. Computer Speech 
  1228.     Processing. London: Prentice/Hall International, 1985.
  1229.  
  1230.   Makhoul, J. "Linear Prediction: A Tutorial Review." Proc. of the
  1231.     IEEE 63 (1975): 561 - 580.
  1232.  
  1233.  
  1234. ------------------------------------------------------------------------
  1235.  
  1236. Q3.3: What software is available?
  1237.  
  1238. Note: there are two types of speech compression technique referred to below. 
  1239. Lossless technqiues preserve the speech through a compression-decompression
  1240. phase.  Lossy techniques do not preserve the speech prefectly.  As a general
  1241. rule, the more you compress speech, the more the quality degardes.
  1242.  
  1243.  
  1244. Package:     File format conversion
  1245. Platform:    SUN OS?
  1246. Description: Conversion utility able to encode and decode between the
  1247.     the following formats: G.723, G.721, A-law, u-law and linear.
  1248. Availability: By anonymous ftp from
  1249.     ftp.cwi.nl:/pub/audio/ccitt-adpcm.tar.Z
  1250.  
  1251.  
  1252. Package:     shorten - a lossless compressor for speech signals
  1253. Platform:    UNIX/DOS
  1254. Description: A lossless compressor for speech signals.  It will compile and 
  1255.              run on UNIX workstations and will cope with a wide variety of
  1256.              formats.  Compression is typically 50% for 16bit clean speech 
  1257.              sampled at 16kHz.
  1258. Availability: Anonymous ftp - POrtable UNIX version is
  1259.         svr-ftp.eng.cam.ac.uk:/comp.speech/sources/shorten-1.11.tar.Z
  1260.          Unsupported DOS version is
  1261.         svr-ftp.eng.cam.ac.uk:/comp.speech/sources/shn109.exe
  1262.  
  1263.  
  1264. Package: CELP 3.2a & LPC
  1265. Platform:    Sun (the makefiles & source can be modified for other platforms)
  1266. Description: CELP is lossy compression technqiue.
  1267.     The U.S. DoD's Federal-Standard-1016 based 4800 bps code excited
  1268.         linear prediction voice coder version 3.2a (CELP 3.2a) Fortran and
  1269.         C simulation source codes.  Available for worldwide distribution
  1270.     (on DOS diskettes, but configured to compile on Sun SPARC stations) 
  1271.     from NTIS and DTIC.  Example input and processed speech files are 
  1272.     included.  A Technical Information Bulletin (TIB), "Details to Assist 
  1273.     in Implementation of Federal Standard 1016 CELP," and the official
  1274.     standard, "Federal Standard 1016, Telecommunications:  Analog to
  1275.     Digital Conversion of Radio Voice by 4,800 bit/second Code Excited
  1276.     Linear Prediction (CELP)," are also available.
  1277.  
  1278. Availability 1: Through the National Technical Information Service:
  1279.     NTIS
  1280.     U.S. Department of Commerce
  1281.     5285 Port Royal Road,
  1282.     Springfield, VA  22161, USA
  1283.  
  1284.     The "AD" ordering number for the CELP software is AD M000 118
  1285.     (US$ 90.00) and for the TIB it's AD A256 629 (US$ 17.50).  
  1286.     The LPC-10 standard, described below, is FIPS Pub 137 (US$ 12.50).  
  1287.     There is a $3.00 shipping charge on all U.S. orders.  The telephone 
  1288.     number for their automated system is 703-487-4650, or 703-487-4600 
  1289.     if you'd prefer    to talk with a real person.
  1290.  
  1291.     (U.S. DoD personnel and contractors can receive the package from the
  1292.     Defense Technical Information Center:  DTIC, Building 5, Cameron
  1293.     Station, Alexandria, VA 22304-6145.  Their telephone number is
  1294.     703-274-7633.)
  1295.  
  1296. Availability 2: By anonymous ftp from:
  1297.     super.org (192.31.192.1):/pub/celp_3.2a.tar.Z
  1298.         OR
  1299.     svr-ftp.eng.cam.ac.uk:comp.speech/sources/celp_3.2a.tar.Z
  1300.  
  1301. Misc: The following articles describe the Federal-Standard-1016 4.8-kbps 
  1302.     CELP coder (it's unnecessary to read more than one):
  1303.  
  1304.     Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C. Welch,
  1305.     "The Federal Standard 1016 4800 bps CELP Voice Coder," Digital Signal
  1306.     Processing, Academic Press, 1991, Vol. 1, No. 3, p. 145-155.
  1307.  
  1308.     Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C. Welch,
  1309.     "The DoD 4.8 kbps Standard (Proposed Federal Standard 1016),"
  1310.     in Advances in Speech Coding, ed. Atal, Cuperman and Gersho,
  1311.     Kluwer Academic Publishers, 1991, Chapter 12, p. 121-133.
  1312.  
  1313.     Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C. Welch, "The
  1314.     Proposed Federal Standard 1016 4800 bps Voice Coder:  CELP," Speech
  1315.     Technology Magazine, April/May 1990, p. 58-64.
  1316.  
  1317.     * The U.S. DoD's Federal-Standard-1015/NATO-STANAG-4198 based 2400
  1318.     bps linear prediction coder (LPC-10) was republished as a Federal
  1319.     Information Processing Standards Publication 137 (FIPS Pub 137).
  1320.     It is described in:
  1321.  
  1322.     Thomas E. Tremain, "The Government Standard Linear Predictive Coding
  1323.     Algorithm:  LPC-10," Speech Technology Magazine, April 1982, p. 40-49.
  1324.  
  1325.     There is also a section about FS-1015 in the book:
  1326.     Panos E. Papamichalis, Practical Approaches to Speech Coding,
  1327.     Prentice-Hall, 1987.
  1328.  
  1329.     * The voicing classifier used in the enhanced LPC-10 (LPC-10e) is 
  1330.     described in: Campbell, Joseph P., Jr. and T. E. Tremain, "Voiced/
  1331.     Unvoiced Classification of Speech with Applications to the U.S. 
  1332.     Government LPC-10E Algorithm," Proceedings of the IEEE International 
  1333.     Conf. on Acoustics, Speech, and Signal Processing, 1986, p. 473-6.
  1334.  
  1335.     * Copies of the official standard, "Federal Standard 1016, Tele-
  1336.     communications: Analog to Digital Conversion of Radio Voice by 4,800 
  1337.     bit/second Code Excited Linear Prediction (CELP)" are available for 
  1338.     US$ 5.00 each from:
  1339.          GSA Federal Supply Service Bureau
  1340.         Specification Section, Suite 8100
  1341.         470 E. L'Enfant Place, S.W.
  1342.         Washington, DC  20407
  1343.         (202)755-0325
  1344.  
  1345.     * Realtime DSP code for FS-1015 and FS-1016 is sold by:
  1346.  
  1347.     John DellaMorte, DSP Software Engineering
  1348.     165 Middlesex Tpk, Suite 206
  1349.     Bedford, MA  01730, USA
  1350.     Ph: 1-617-275-3733    Fax: 1-617-275-4323
  1351.     dspse.bedford@channel1.com
  1352.  
  1353.     * DSP Software Engineering's FS-1016 code can run on a DSP Research's 
  1354.     Tiger 30 (a PC board with a TMS320C3x and analog interface suited 
  1355.     to development work).
  1356.  
  1357.     DSP Research
  1358.     1095 E. Duane Ave.          
  1359.     Sunnyvale, CA  94086, USA
  1360.     Ph: (408)773-1042    Fax: (408)736-3451 (fax)
  1361.  
  1362.  
  1363.  
  1364. Package:     32 kbps ADPCM
  1365. Platform:    SGI and Sun Sparcs
  1366. Description: 32 kbps ADPCM C-source code (G.721 compatibility is uncertain)
  1367. Contact:     Jack Jansen
  1368. Availablity: Anoymous ftp to ftp.cwi.nl: pub/adpcm.shar
  1369.  
  1370.  
  1371. Package:     GSM 06.10 Compression
  1372. Platform:    Runs faster than real time on most Sun SPARCstations
  1373. Description: GSM 06.10 is lossy compression technqiue.
  1374.          European GSM 06.10 provisional standard for full-rate speech
  1375.              transcoding, prI-ETS 300 036, which uses RPE/LTP (residual
  1376.              pulse excitation/long term prediction) coding at 13 kbit/s.
  1377. Contact:     Carsten Bormann <cabo@cs.tu-berlin.de>
  1378. Availability: An implementation can be ftp'ed from:
  1379.                 tub.cs.tu-berlin.de: /pub/tubmik/gsm-1.0.tar.Z
  1380.                                     +/pub/tubmik/gsm-1.0-patch1
  1381.                 or as a faster but not always up-to-date alternative:
  1382.                        liasun3.epfl.ch: /pub/audio/gsm-1.0pl1.tar.Z
  1383.  
  1384. Package:      G.721/722/723 Compression
  1385. Description:  ?
  1386. Availability: By email to teledoc@itu.arcom.ch, with
  1387.         GET ITU-3022
  1388.     as the *only* line in the body of the message.
  1389.     This is also available by anonymous ftp from:
  1390.     svr-ftp.eng.cam.ac.uk:comp.speech/sources/G711_G722_G723.tar.Z
  1391.  
  1392.  
  1393. Package:     U.S.F.S. 1016 CELP vocoder for DSP56001
  1394. Platform:    DSP56001
  1395. Description: Real-time U.S.F.S. 1016 CELP vocoder that runs on a single 
  1396.     27MHz Motorola DSP56001.  Free demo software available from PC-56
  1397.     and PC-56D.  Source and object code available for a one-time 
  1398.     license fee.
  1399. Contact: Cole Erskine
  1400.     Analogical Systems    
  1401.         2916 Ramona St.        
  1402.         Palo Alto, CA 94306, USA
  1403.         Tel:(415) 323-3232  FAX:(415) 323-4222
  1404.     Internet: cole@analogical.com
  1405.  
  1406.  
  1407. Product: 8 Kbit/s CELP on the TMS320C5x family of DSP chips.
  1408. Description: For low bandwidth transmission of voice, compact voice storage 
  1409.     for archival purposes, low-cost digital answering machines and
  1410.         efficient storage for voice mail.  Features :- 
  1411.     - near toll quality at 8 Kb/s.
  1412.         - Variable rate option with 1 Kb/s silence encoding
  1413.         - Implemented on a fixed-point processor for lower system cost.
  1414.         - Attractive licensing scheme.
  1415.         - Future availability of 4 Kb/s.
  1416.         - Custom rates possible.
  1417.     Capacity :-
  1418.         - Two half-duplex or one full duplex channels on the 20 MIPS 'C5x
  1419.                 (at 95% and 55% CPU utilization respectively).
  1420.         - Two full duplex channels on the 28.6 MIPS 'C5x
  1421.                 (at 77% CPU utilization).
  1422.         - Requires 9 K-words program memory and 3 K-words data memory.
  1423.         - Decoding in real-time on a 486 class CPU.
  1424. Contact: CVI Inc.
  1425.     443 Vienna Cres. North Vancouver, BC, Canada V7N 3B3
  1426.     Tel: (604) 987 1719   Fax: (604) 986 8139
  1427.     Email: cvi@extropia.wimsey.com
  1428.  
  1429.  
  1430.  
  1431.  
  1432. =======================================================================
  1433.  
  1434. SECTION 4 - Natural Language Processing
  1435.  
  1436. There is now a newsgroup specifically for Natural Language Processing.
  1437. It is called comp.ai.nat-lang.  
  1438.  
  1439. There is also a lot of useful information on Natural Language Processing 
  1440. in the FAQ for comp.ai.  That FAQ lists available software and useful 
  1441. references.  It includes a substantial list of software, documentation 
  1442. and other info available by ftp.
  1443.  
  1444. ------------------------------------------------------------------------
  1445.  
  1446. Q4.1: What are some good references/books on NLP?
  1447.  
  1448.  
  1449. Take a look at the FAQ for the "comp.ai" newsgroup as it also includes some 
  1450. useful references.
  1451.  
  1452.  
  1453.   James Allen: Natural Language Understanding. (Benjamin/Cummings Series in
  1454.   Computer Science) Menlo Park: Benjamin/Cummings Publishing Company, 1987.
  1455.  
  1456.     This book consists of four parts: syntactic processing, semantic
  1457.     interpretation, context and world knowledge, and response generation.
  1458.  
  1459.   G. Gazdar and C. Mellish, Natural Language Processing in {Prolog/Lisp/Pop11},
  1460.   Addison Wesley, 1989
  1461.  
  1462.     Emphasis on parsing, especially unification-based parsing, lots of 
  1463.     details on the lexicon, feature propagation, etc. Fair coverage of 
  1464.     semantic interpretation, inference in natural language processing, 
  1465.     and pragmatics; much less extensive than in Allen's book, but more
  1466.     formal.  There are three versions, one for each programming language 
  1467.     listed above, with complete code.
  1468.  
  1469.   Shapiro, Stuart C.: Encyclopedia of Artificial Intelligence Vol.1 and 2.
  1470.   New York: John Wiley & Sons, 1990.
  1471.  
  1472.     There are articles on the different areas of natural language
  1473.     processing which also give additional references.
  1474.  
  1475.   Paris, Ce'cile L.; Swartout, William R.; Mann, William C.: Natural Language
  1476.   Generation in Artificial Intelligence and Computational Linguistics. Boston:
  1477.   Kluwer Academic Publishers, 1991.
  1478.  
  1479.     The book describes the most current research developments in natural 
  1480.     language generation and all aspects of the generation process are
  1481.     discussed. The book is comprised of three sections: one on text
  1482.     planning, one on lexical choice, and one on grammar.
  1483.  
  1484.    Readings in Natural Language Processing, ed by B. Grosz, K. Sparck Jones
  1485.    and B. Webber, Morgan Kaufmann, 1986
  1486.  
  1487.     A collection of classic papers on Natural Language Processing.  
  1488.         Fairly complete at the time the book came out (1986) but now 
  1489.     seriously out of date. Still useful for ATN's, etc.
  1490.  
  1491.    Klaus K. Obermeier, Natural Language Processing Technologies
  1492.    in Artificial Intelligence: The Science and Industry Perspective,
  1493.    Ellis Horwood Ltd, John Wiley & Sons, Chichester, England, 1989.
  1494.  
  1495.  
  1496. The major journals of the field are "Computational Linguistics" and 
  1497. "Cognitive Science" for the artificial intelligence aspects, "Cognition" 
  1498. for the psychological aspects, "Language", "Linguistics and Philosophy" and 
  1499. "Linguistic Inquiry" for the linguistic aspects.  "Artificial Intelligence" 
  1500. occasionally has papers on natural language processing.
  1501.  
  1502.  
  1503. The major conferences are ACL (held every year) and COLING (held every two
  1504. years).  Most AI conferences have a NLP track; AAAI, ECAI, IJCAI and the
  1505. Cognitive Science Society conferences usually are the most interesting for 
  1506. NLP.  CUNY is an important psycholinguistic conference. There are lots of 
  1507. linguistic conferences: the most important seem to be NELS, the conference 
  1508. of the Chicago Linguistic Society (CLS), WCCFL, LSA, the Amsterdam Colloquium,
  1509. and SALT. 
  1510.  
  1511.  
  1512. ------------------------------------------------------------------------
  1513.  
  1514. Q4.2: What NLP software is available?
  1515.  
  1516. The FAQ for the "comp.ai" newsgroup lists a variety of language processing 
  1517. software that is available.  That FAQ is posted monthly.
  1518.  
  1519.  
  1520. Natural Language Software Registry (NLSR)
  1521. =========================================
  1522.  
  1523. The Natural Language Software Registry is available from the German Research 
  1524. Institute for Artificial Intelligence (DFKI) in Saarbrucken.  Its purpose 
  1525. is to facilitate the exchange and evaluation of natural language processing 
  1526. software within the research community.  To this end, the NLSR is
  1527. cataloging natural language software projects, both commercial and non- 
  1528. commercial. The new updated and enlarged version contains more than 100 
  1529. descriptions of natural processing software. Registry listings include:
  1530.  
  1531. + speech signal processors, such as the Computerized Speech Lab 
  1532.     (Kay Elemetrics)
  1533. + morphological analyzers, such as PC-KIMMO 
  1534.     (Summer Institute for Linguistics)
  1535. + parsers, such as Alveytools (University of Edinburgh)
  1536. + semantic and pragmatic analyzer, such as NLL
  1537.         (University of the Saarland, Germany)
  1538. + generation programs, such as FUF
  1539.         (Ben Gurion University of the Negev)
  1540. + knowledge representation systems, such as Rhet 
  1541.     (University of Rochester)
  1542. + multicomponent systems, such as ELU (ISSCO), PENMAN (ISI), 
  1543.     Pundit (UNISYS), SNePS (SUNY Buffalo),
  1544. + NLP-Tools, such as GULP (University of Georgia) or Linguist
  1545.         (Kansai Research Laboratory)
  1546. + applications programs (misc.)
  1547.  
  1548.  
  1549. If you have developed a piece of software for natural language
  1550. processing that other researchers might find useful, you can include 
  1551. it by returning the questionnaire available from the sources below.
  1552.  
  1553.  
  1554.     ftp: Germany: ftp.dfki.uni-sb.de (134.96.188.252)
  1555.                   (directory: pub/registry, password:anonymous) 
  1556.  e-mail: registry@dfki.uni-sb.de
  1557.    post: Natural Language Software Registry
  1558.          Deutsches Forschungsinstitut fuer Kuenstliche Intelligenz (DFKI)
  1559.          Stuhlsatzenhausweg 3
  1560.          D-66123 Saarbruecken
  1561.          Germany
  1562.  
  1563. Other ftp sites are
  1564.  
  1565.     crlftp.nmsu.edu (128.123.1.33)
  1566.     The directory is pub/non-lexical/NL_Software_Registy
  1567.  
  1568.     dri.cornell.edu (128.84.180.39)
  1569.     The directory is /pub/Natural_Language_Software_Registry
  1570.               or /pub/NLSR
  1571.  
  1572.  
  1573.  
  1574. =======================================================================
  1575.  
  1576. SECTION 5 - Speech Synthesis
  1577.  
  1578. Q5.1: What is speech synthesis?
  1579.  
  1580. Speech synthesis is the task of transforming written input to spoken output.
  1581. The input can either be provided in a graphemic/orthographic or a phonemic
  1582. script, depending on its source.
  1583.  
  1584. ------------------------------------------------------------------------
  1585.  
  1586. Q5.2: How can speech synthesis be performed?
  1587.  
  1588. There are several algorithms.  The choice depends on the task they're used
  1589. for.  The easiest way is to just record the voice of a person speaking the
  1590. desired phrases.  This is useful if only a restricted volume of phrases and
  1591. sentences is used, e.g. messages in a train station, or schedule information
  1592. via phone.  The quality depends on the way recording is done.
  1593.  
  1594. More sophisticated but worse in quality are algorithms which split the 
  1595. speech into smaller pieces.  The smaller those units are, the less are they
  1596. in number, but the quality also decreases.  An often used unit is the phoneme,
  1597. the smallest linguistic unit.  Depending on the language used there are about
  1598. 35-50 phonemes in western European languages, i.e. there are 35-50 single
  1599. recordings. The problem is combining them as fluent speech requires fluent
  1600. transitions between the elements. The intellegibility is therefore lower, but
  1601. the memory required is small.
  1602.  
  1603. A solution to this dilemma is using diphones. Instead of splitting at the 
  1604. transitions, the cut is done at the center of the phonemes, leaving the 
  1605. transitions themselves intact. This gives about 400 elements (20*20) and
  1606. the quality increases.
  1607.  
  1608. The longer the units become, the more elements are there, but the quality 
  1609. increases along with the memory required. Other units which are widely used
  1610. are half-syllables, syllables, words, or combinations of them, e.g. word stems
  1611. and inflectional endings.
  1612.  
  1613. ------------------------------------------------------------------------
  1614.  
  1615. Q5.3: What are some good references/books on synthesis?
  1616.  
  1617. The following are good introductory books/articles.
  1618.  
  1619.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  1620.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  1621.    1987.
  1622.  
  1623.    D. H.  Klatt, "Review of Text-To-Speech Conversion for English", Jnl. of
  1624.    the Acoustic Society of America (JASA), v82, Sept. 1987, pp 737-793.
  1625.  
  1626.    I. H. Witten.   Principles of Computer Speech.
  1627.    (London:  Academic Press, Inc., 1982).
  1628.  
  1629.    John Allen, Sharon Hunnicut and Dennis H. Klatt, "From Text to Speech: 
  1630.    The MITalk System", Cambridge University Press, 1987.
  1631.  
  1632. ------------------------------------------------------------------------
  1633.  
  1634. Q5.4: What software/hardware is available?
  1635.  
  1636. In the last year there has been a great increase in the release of speech
  1637. synthesis software - both commercial and public domain.  The following is
  1638. a list of as many products/packages as I can find out about.  Any help in
  1639. keeping this list up-to-date will be appreciated.
  1640.  
  1641.  
  1642.  
  1643. Package:    ORATOR Text-to-Speech Synthesizer
  1644. Platform:   SUN SPARC, Decstation 5000.  Portable to other UNIX platforms.
  1645. Description: Sophisticated speech synthesis package.  Has text preprocessing 
  1646.     (for abbreviations, numbers), acronym citation rules, and human-like 
  1647.     spelling routines.  High accuracy for pronunciation of names of 
  1648.     people, places and businesses in America, text-to-speech translation 
  1649.     for common words; rules for stress and intonation marking, based on 
  1650.     natural-sounding demisyllable synthesis; various methods of user 
  1651.     control and customization at most stages of processing.  Currently, 
  1652.     ORATOR is most appropriate for applications containing a large 
  1653.     component of names in the text, and requires some amount of user-
  1654.     specified text-preprocessing to produce good quality speech for 
  1655.     general text.
  1656. Hardware: Standard audio output of SPARC, or Decstation audio hardware.
  1657.         At least 16M of memory recommended.
  1658. Cost:   Binary License: $5,000.  
  1659.         Source license for porting or commercial use: $30,000.
  1660. Availability: Contact Bellcore's Licensing Office (1-800-527-1080) 
  1661.         or email:   jzilg@cc.bellcore.com (John Zilg)
  1662.  
  1663.  
  1664. Package: Text to phoneme program (1)
  1665. Platform: unknown
  1666. Description: Text to phoneme program.  Based on Naval Research Lab's
  1667.     set of text to phoneme rules.
  1668. Availability: By FTP from "shark.cse.fau.edu" (131.91.80.13) in the directory
  1669.     /pub/src/phon.tar.Z
  1670.  
  1671.  
  1672. Package: Text to phoneme program (2)
  1673. Platform: unknown
  1674. Description: Text to phoneme program.
  1675. Availability: By FTP from "wuarchive.wustl.edu" in the file
  1676.     /mirrors/unix-c/utils/phoneme.c
  1677.  
  1678.  
  1679. Package: Text to phoneme program (3)
  1680. Description: A public domain version of the same Naval Research Lab 
  1681.     text to phoneme rules.
  1682. Availability: By anonymous ftp from
  1683.     svr-ftp.eng.cam.ac.uk:comp.speech/sources/english2phoneme.shar
  1684.  
  1685.  
  1686. Package: Text to speech program
  1687. Description: A implementation of the Klatt phoneme to waveform speech 
  1688.     synthesiser.
  1689. Availability: By anonymous ftp from
  1690.     svr-ftp.eng.cam.ac.uk:comp.speech/sources/klatt-0.02.tar.Z
  1691.  
  1692.  
  1693. Package:      "Speak" - a Text to Speech Program
  1694. Platform:     Sun SPARC
  1695. Description:  Text to speech program based on concatenation of pre-recorded
  1696.     speech segments.  A function library can be used to integrate
  1697.     speech output into other code.
  1698. Hardware:     SPARC audio I/O
  1699. Availability: by FTP from "wilma.cs.brown.edu" as /pub/speak.tar.Z
  1700.  
  1701.  
  1702. Package:      TheBigMouth - a Text to Speech Program
  1703. Platform:     NeXT
  1704. Description:  Text to speech program based on concatenation of pre-recorded
  1705.     speech segments.  NeXT equivalent of "Speak" for Suns.
  1706. Availability: try NeXT archive sites such as sonata.cc.purdue.edu.
  1707.  
  1708.  
  1709. Package:  TextToSpeech Kit
  1710. Platform:  NeXT Computers
  1711. Description: The TextToSpeech Kit does unrestricted conversion of English 
  1712.     text to synthesized speech in real-time.  The user has control over
  1713.     speaking rate, median pitch, stereo balance, volume, and intonation
  1714.     type.  Text of any length can be spoken, and messages can be queued 
  1715.     up, from multiple applications if desired.  Real-time controls such 
  1716.     as pause, continue, and erase are included.  Pronunciations are 
  1717.     derived primarily by dictionary look-up.  The Main Dictionary has 
  1718.     nearly 100,000 hand-edited pronunciations which can be supplemented 
  1719.     or overridden with the User and Application dictionaries.  A number 
  1720.     parser handles numbers in any form.  A letter-to-sound knowledge base 
  1721.     provides pronunciations for words not in the Main or customized 
  1722.     dictionaries.  Dictionary search order is under user control.  
  1723.     Special modes of text input are available for spelling and emphasis 
  1724.     of words or phrases.  The actual conversion of text to speech is done 
  1725.     by the TextToSpeech Server.  The Server runs as an independent task 
  1726.     in the background, and can handle up to 50 client connections.
  1727. Misc: The TextToSpeech Kit comes in two packages: the Developer Kit and the
  1728.     User Kit.  The Developer Kit enables developers to build and test
  1729.     applications which incorporate text-to-speech.  It includes the
  1730.     TextToSpeech Server, the TextToSpeech Object, the pronunciation 
  1731.     editor PrEditor, several example applications, phonetic fonts, 
  1732.     example source code, and developer documentation.  The User Kit 
  1733.     provides support for applications which incorporate text-to-speech.  
  1734.     It is a subset of the Developer Kit.
  1735. Hardware:  Uses standard NeXT Computer hardware.
  1736. Cost:  TextToSpeech User Kit:  $175 CDN ($145 US)
  1737.        TextToSpeech Developer Kit:  $350 CDN ($290 US)
  1738.        Upgrade from User to Developer Kit:  $175 CDN ($145 US)
  1739. Availability:  Trillium Sound Research
  1740.     1500, 112 - 4th Ave. S.W., Calgary, Alberta, Canada, T2P 0H3
  1741.     Tel: (403) 284-9278    Fax:  (403) 282-6778
  1742.     Order Desk:  1-800-L-ORATOR (US and Canada only)
  1743.     Email:  TTSInfo@trillium.ab.ca
  1744.  
  1745.  
  1746. Package: SGI Developers Toolbox Synthesiser
  1747. Platform: SGI
  1748. Description: The SGI Developer Toolbox 4.0 CDROM contains a basic 
  1749.     public domain text-to-speech program in the publics/speak
  1750.     directory.  The directory includes man pages and source.
  1751. Availability: on the SGI Developer Toolbox 4.0 CDROM
  1752.  
  1753.  
  1754. Package: rsynth
  1755. Platform: Various (including Sun, Linux, NeXT, SGI)
  1756. Description: Text-to-speech converter produced by combination of
  1757.     various public-domain pieces.
  1758. Price: Free
  1759. Availability: by anonymous ftp from
  1760.     svr-ftp.eng.cam.ac.uk:/comp.speech/sources/rsynth-1.0.tar.Z
  1761.     svr-ftp.eng.cam.ac.uk:/comp.speech/sources/rsynth-1.0.tar.gz
  1762.  
  1763.  
  1764. Package:     SENSYN speech synthesizer
  1765. Platform:    PC, Mac, Sun, and NeXt
  1766. Rough Cost:  $300
  1767. Description: This formant synthesizer produces speech waveform files
  1768.     based on the (Klatt) KLSYN88 synthesizer.  It is intended
  1769.         for laboratory and research use.  Note that this is NOT a
  1770.     text-to-speech synthesizer, but creates speech sounds based
  1771.     upon a large number of input variables (formant frequencies,
  1772.     bandwidths, glottal pulse characteristics, etc.) and would
  1773.     be used as part of a TTS system. Includes full source code.
  1774. Availability: Sensimetrics Corporation, 64 Sidney Street, Cambridge MA 02139.
  1775.     Fax: (617) 225-0470; Tel: (617) 225-2442.
  1776.     Email: sensimetrics@sens.com
  1777.  
  1778.  
  1779. Package:     SPCHSYN.EXE
  1780. Platform:    PC?
  1781. Availability: By anonymous ftp from evans.ee.adfa.oz.au (131.236.30.24)
  1782.     in /mirrors/tibbs/Applications/SPCHSYN.EXE
  1783.     It is a self extracting DOS archive.
  1784. Requirements: May require special TI product(s), but all source is there.
  1785.  
  1786.  
  1787. Package:      CSRE: Canadian Speech Research Environment
  1788. Platform:     PC
  1789. Cost:         Distributed on a cost recovery basis
  1790. Description:  CSRE is a software system which includes in addition to the 
  1791.     Klatt speech synthesizer, SPEECH ANALYSIS and EXPERIMENT CONTROL 
  1792.     SYSTEM. A paper about the whole package can be found in:
  1793.       Jamieson D.G. et al, "CSRE: A Speech Research Environment", Proc. 
  1794.       of the Second Intl. Conf. on Spoken Language Processing, Edmonton: 
  1795.       University of Alberta, pp. 1127-1130.
  1796. Hardware:     Can use a range of data aqcuisition/DSP
  1797. Availability: For more information about the availability of this software 
  1798.     contact Krystyna Marciniak - email march@uwovax.uwo.ca
  1799.     Tel (519) 661-3901  Fax (519) 661-3805.
  1800.     For technical information email ramji@uwovax.uwo.ca
  1801. Note: A more detailed description is given in Q1.8 on speech environments.
  1802.  
  1803.  
  1804. Package:      Eloquence (currently an alpha release)
  1805. Platform:     Windows and Solaris
  1806. Description:  Software based text-to-speech package.  Generates waveforms 
  1807.     completely algorithmically instead of by concatenating waveforms, 
  1808.     for maximum flexibility and naturalism.  For instance, when the 
  1809.     user requests a deeper voice, the software simulates a larger vocal 
  1810.     tract, instead of simply pitch-shifting samples.
  1811.     Uses high-level linguistic parsing, which obviates the need for a 
  1812.     huge dictionary.  Handles numbers, acronyms, currency, etc.
  1813.     Includes a set of annotation symbols, for placing stress on particular
  1814.     words, expressing excitement/boredom, etc.  Also allows phonetic input.
  1815.     The final version, including support for Windows DDE and OLE and 
  1816.     UNIX Sockets, will be released by the end of 1994.
  1817.     Produces male and female voices for General American English.  
  1818.     Dialects under development include Alabama, Brooklyn, and Boston.
  1819. Price:          $5000 (unconfirmed)
  1820. Availability: Eloquent Technology, Inc.
  1821.     24 Highgate Circle
  1822.     Ithaca, NY  14850
  1823.     Ph: (607) 257-6829    Fax: (607) 272-0058
  1824.  
  1825.  
  1826. Package:      JSRU
  1827. Platform:     UNIX and PC
  1828. Cost:         100 pounds sterling (from academic institutions and industry)
  1829. Description:  A C version of the JSRU system, Version 2.3 is available.
  1830.     It's written in Turbo C but runs on most Unix systems with very
  1831.     little modification.  A Form of Agreement must be signed to say 
  1832.     that the software is required for research and development only.
  1833. Contact:      Dr. E.Lewis (eric.lewis@uk.ac.bristol)
  1834.  
  1835.  
  1836. Package:      Klatt-style synthesiser
  1837. Platform:     Unix
  1838. Cost:         Free
  1839. Description:  Software posted to comp.speech in late 1992.
  1840. Availability: By anonymous ftp from the comp.speech archives as
  1841.     svr-ftp.eng.cam.ac.uk:/comp.speech/sources/klatt-0.02.tar.Z
  1842.  
  1843.  
  1844. Package:      Speech Manager and PlainTalk
  1845. Platform:     Macintosh
  1846. Cost:          Free
  1847. Description:  Apple's new text-to-speech system extension(s) that enable
  1848.     applications (listed below) to perform text-to-speech
  1849.     conversion.  The Speech Manager runs on most Macs, but PlainTalk
  1850.     (and the high quality voices) requires a 68020 Mac or better.
  1851. Availability: By anonymous ftp from:
  1852.         ftp.apple.com:/dts/mac/sys.soft/speech
  1853.     There are 3 files in this directory:
  1854.         6273632 Aug 14 22:51 macintalk-pro.hqx
  1855.                      PlainTalk Text-To-Speech 1.0 speech synthesizer
  1856.                      extension (includes Female Voice, Compressed);
  1857.                      TTS Female Voice; TTS Male Voice; and
  1858.                      TTS Male Voice, Compressed. Requires 68020 or better!
  1859.          370108 Aug 13 04:30 speech-manager-docs.hqx
  1860.                      Apple DocViewer format (Inside Macintosh style,
  1861.                      no installation instructions - just drag everything
  1862.                      onto your closed System Folder).
  1863.          262569 Aug  7 07:01 speech-manager.hqx
  1864.                      Speech Manager 1.1.1 (includes Marvin's voice) and
  1865.                      MacInTalk Voices 1.1.1 (9 more voices). Runs most Macs.
  1866.  
  1867.  
  1868. Package:      Various Mac Speech Output Applications
  1869. Platform:     Macintosh
  1870. Cost:         Free (except for At Ease)
  1871. Description:  Some of the Speech Manager aware text-to-speech (TTS)
  1872.     applications, etc. are listed below (there are more on the 
  1873.     Apple Developer CD-ROMs).
  1874.  
  1875. Application, etc.  Source            Comments
  1876. _________________ ________  _________________________________________________ 
  1877. AddressSpeech     info-mac  4D talking address book (from Speech Pack 2.0)
  1878. At Ease 2.0    MacWarehouse Friendly desktop that speaks file names
  1879. At Ease 2.0 WG MacWarehouse Friendly desktop that speaks file names
  1880. Eliza 3.1            AOL    Talking Eliza (Rogerian psych therapist)
  1881. FB speech      Inside Basic Mag, volume 3, no. 6. FutureBasic demo
  1882. FB Speech demo Inside Basic Mag, volume 3, no. 7. FutureBasic demo
  1883. Fortune 1.1       info-mac  Like a talking UNIX fortune command - slick
  1884. Homer 0.92d9  zaphod.ee.pitt.edu  GUI IRC client, assign nicks voices - slick
  1885. MacMessage 1.0  FirstClassBBS  Share talking messages/customizable startup
  1886. Say               info-mac  MPW Tool which converts standard input to speech
  1887. ScriptTools 1.2   info-mac  Write AppleScript scripts to say text messages
  1888. Siege Watch 1.01f info-mac  Wryly political speaking clock
  1889. SoToSpeak1.0.0b10 info-mac  Two voice conversation (also see Fortune's About)
  1890. Speak It!         info-mac  Type in a message and have it spoken
  1891. Speaker 1.11      info-mac  Simple text file editor, speaks on <CR>, macros
  1892. Speecher 1.2.1    info-mac  Customizable word pronunciation/substitution
  1893. SpeechManagerdemo info-mac  Command line interface, C source, aka -explorer
  1894. Speech Pack 2.0   info-mac  4th Dimension external, add speech to database
  1895. SpeechUnitEx      info-mac  Pascal source code for speech in Lab 7
  1896. speek-02b         info-mac  Speech XCMD for HyperCard
  1897. TalkingClockPro2.0info-mac  AppleScriptable talking clock extension (2.0b0)
  1898. TeachText 7.2      AV Mac   Apple's talking TeachText (simple editor w/QT)
  1899. Tex-Edit 1.9         AOL    Talking word processor, McSink like, modeming
  1900. VoiceDemo 1.0.1   info-mac  Bare bones phrase talker
  1901. Welcome!v1.3.1    info-mac  A talking Welcome to Macintosh startup
  1902. ?                     ?     Talking Plug-In-Module for MS Word 5,
  1903.                                experimental, unsupported, buggy, beware!
  1904. Speech Rhythms       AOL    A cool text file for one of the above apps
  1905. _____
  1906. Sources:
  1907. AOL = America Online
  1908. info-mac = {ftp sumex-aim.stanford.edu, ftp wuarchive.wustl.edu, et al.}
  1909. MacWarehouse = (800) 255-6227
  1910.  
  1911. Apple's work in spoken language technologies and systems is described in:
  1912. Lee, Kai-Fu. "The Conversational Computer: An Apple Perspective."
  1913. (Keynote Speech) In Proc. Eurospeech in Berlin, ESCA, September, 1993.
  1914.  
  1915.  
  1916. Package:      MacinTalk
  1917. Platform:     Macintosh
  1918. Cost:         Free
  1919. Description:  Formant based speech synthesis.
  1920.     There is also a program called "tex-edit" which apparently
  1921.     can pronounce English sentences reasonably using Macintalk.
  1922. Note:     MacinTalk doesn't run reliably on Macintosh's with new 
  1923.     sound hardware under the lastest OS (System 7.1 w/HUD 2.0).
  1924.     More recent software is listed above.
  1925. Availability: By anonymous ftp from many archive sites (have a look on
  1926.     archie if you can).  tex-edit is on many of the same sites. Try
  1927.     wuarchive.wustl.edu:/mirrors2/info-mac/Old/card/macintalk.hqx[.Z]
  1928.                                                        /macintalk-stack.hqx[.Z]
  1929.     wuarchive.wustl.edu:/mirrors2/info-mac/app/tex-edit-15.hqx
  1930.  
  1931.  
  1932. Package: Lernout & Hauspie Text-To-Speech SDK
  1933. Platform: IBM-Compatible
  1934. Description: The L&H Text-to-Speech software developers kit is able
  1935.     to integrate text-to-speech technology with your own or existing 
  1936.     PC applications under Microsoft Windows 3.1.  This software will 
  1937.     allow conversion of written text into clear human sounding synthetic 
  1938.     speech.
  1939. Requirements: IBM-compatible PC 386 DX(33Mhz) or higher, 8Mb RAM, 
  1940.     MS DOS 5.0(or higher), MS Windows 3.1 (or higher), 
  1941.     Compiler and linker: Microsoft(R) Visual C++ or Borland C++,
  1942.     Windows(TM) 3.1 compatible sound card, preferably 16 bit
  1943.     e.g. Soundblaster, Windows Sounds System, Pro Audio Spectrum
  1944. Price: Unconfirmed $1,999 per copy, and $499 per each additional language 
  1945.     (American English, French, German, or Spanish).
  1946. Contact: USA (617) 932-4118
  1947.  
  1948.  
  1949. Package: Tinytalk
  1950. Platform: PC
  1951. Description: Shareware package is a speech 'screen reader' which is use 
  1952.     by many blind users.
  1953. Availability: By anonymous ftp from handicap.shel.isc-br.com.
  1954.     Get the files /speech/ttexe145.zip & /speech/ttdoc145.zip.
  1955.  
  1956.  
  1957. Package:     Narrator - narrator.device
  1958. Platform:    Amiga
  1959. Description: Formant based speech synthesis. Includes a Engish-to-phoneme
  1960.              translation library, and a SPEAK: pseudo-device for speech
  1961.              output.
  1962. Hardware:    Standard Amiga hardware
  1963. Availability: Part of AmigaOS
  1964.  
  1965.  
  1966. Product Series: Infovox
  1967. Description: Multilingual Text-to-speech systems, languages available: 
  1968.     American English, British English, German, French, Spanish, 
  1969.     Italian, Swedish, Norwegian, Icelandic, Danish and Finnish.
  1970. Product name: INFOVOX 500, PC BOARD
  1971.       * Product description: Half length expansion board for IBM PC, XT, AT, 
  1972.     PS/2 model 30 or compatible personal computers. The board can 
  1973.     also be connected via the serial port. Language and control program 
  1974.     for downloading into RAM or mounted on EPROMs.
  1975.       * Platform: for IBM PC, XT, AT, PS/2 model 30 or compatible
  1976. Product name: INFOVOX 600, OEM BOARD
  1977.       * Product description: OEM board built with CMOS IC's. Language and 
  1978.     control program are stored in on-board fixed memory.
  1979.       * Platform: any, Interface: 9-pole D-SUB (RS 232-C) 300-9600 Baud 
  1980. Product name: INFOVOX 700, DESKTOP UNIT
  1981.       * Product description: Desktop unit with built in Infovox 600 to be 
  1982.     connected to any computer or terminal via an RS 232-C serial 
  1983.     interface. Built in loudspeaker and rechargable battery for 4 hours 
  1984.     use, and control knobs for continuous control of speech volume and 
  1985.     speed.
  1986.       * Platform: any
  1987. Product name: INFOVOX 650, OEM BOARD
  1988.       * Product description: OEM-board built with CMOS IC's. Language and 
  1989.     control program are stored in on-board memory.
  1990.       * Platform:any, Interface: 9 pole D-SUB (RS 232-C) 300-9600 Baud 
  1991. Product name: INFOVOX 750, DESKTOP UNIT
  1992.       * Product description: Desktop unit with built in Infovox 650 to be 
  1993.     connected to any computer or terminal via an RS 232-C serial 
  1994.     interface. Built in loudspeaker and rechargable battery for 5 hours 
  1995.     use, and a control knob for continuous control of speech volume.
  1996.       * Platform: any
  1997. Misc: Infovox multi-lingual Text-to-Speech Technologies can interface with 
  1998.     Apple's PlainTalk System.  It enables Apple Third party developers 
  1999.     to write application software with synthetic speech output using 
  2000.     their usual Apple Plain Talk Text-to-Speech interface.  Software 
  2001.     already written for the English speaking market using Apple Plain 
  2002.     Talk can be now distributed worldwide, provided message strings 
  2003.     are translated.
  2004. Contact: TELIA PROMOTOR INFOVOX AB
  2005.     TTS Sales Division
  2006.     P.O. Box 2069
  2007.     S-171 02  Solna, Sweden
  2008.     Ph: +46 8 764 35 00   Fax: +46 8 735 78 76
  2009.     email: tts-sales@infovox.se
  2010.  
  2011.  
  2012. SIMTEL-20
  2013.     The following is a list of speech related software available from 
  2014.     SIMTEL-20 and its mirror sites for PCs.  
  2015.     The SIMTEL internet address is WSMR-SIMTEL20.Army.Mil [192.88.110.20]
  2016.     Try looking at your nearest archive site first.
  2017. Directory PD1:<MSDOS.VOICE>
  2018.  Filename   Type Length   Date   Description
  2019.  ==============================================
  2020.  AUTOTALK.ARC  B   23618  881216  Digitized speech for the PC
  2021.  CVOICE.ARC    B   21335  891113  Tells time via voice response on PC
  2022.  HEARTYPE.ARC  B   10112  880422  Hear what you are typing, crude voice synth.
  2023.  HELPME2.ARC   B    8031  871130  Voice cries out 'Help Me!' from PC speaker
  2024.  SAY.ARC       B   20224  860330  Computer Speech - using phonemes
  2025.  SPEECH98.ZIP  B   41003  910628  Build speech (voice) on PC using 98 phonemes
  2026.  TALK.ARC      B    8576  861109  BASIC program to demo talking on a PC speaker
  2027.  TRAN.ARC      B   39766  890715  Repeats typed text in digital voice
  2028.  VDIGIT.ZIP    B  196284  901223  Toolkit: Add digitized voice to your programs
  2029.  VGREET.ARC    B   45281  900117  Voice says good morning/afternoon/evening
  2030.  
  2031.  
  2032.  
  2033. Package: Bliss
  2034. Contact: Dr. John Merus (Brown University) Mertus@browncog.bitnet
  2035.  
  2036.  
  2037. Package:      xxx
  2038. Platform:     (PC, Mac, Sun, NeXt etc)
  2039. Rough Cost:   (if appropriate)
  2040. Description:  (keep it brief)
  2041. Hardware:     (requirement list)
  2042. Availability: (ftp info, email contact or company contact)
  2043.  
  2044.  
  2045.  
  2046. Can anyone provide information on the following:
  2047.  
  2048.     MultiVoice
  2049.     Monolog
  2050.     TrueSpeech from DSP Group Inc.
  2051.     The range of recently released Windows products
  2052.  
  2053. Please email or post suitable information for this list.  Commercial,
  2054. public domain and research packages are all appropriate.  
  2055.  
  2056.  
  2057.  
  2058. =======================================================================
  2059.  
  2060. SECTION 6 - Speech Recognition
  2061.  
  2062. Q6.1: What is speech recognition?
  2063.  
  2064. Automatic speech recognition is the process by which a computer maps an 
  2065. acoustic speech signal to text.
  2066.  
  2067. Automatic speech understanding is the process by which a computer maps an 
  2068. acoustic speech signal to some form of abstract meaning of the speech.
  2069.  
  2070. ------------------------------------------------------------------------
  2071.  
  2072. Q6.2: How can I build a very simple speech recogniser?
  2073.  
  2074. Doug Danforth provides a detailed account in article 253 in the comp.speech
  2075. archives - also available as file info/DIY_Speech_Recognition.
  2076.  
  2077. The first part is reproduced here.
  2078.  
  2079.   QUICKY RECOGNIZER sketch:
  2080.   
  2081.   Here is a simple recognizer that should give you 85%+ recognition
  2082.   accuracy.  The accuracy is a function of WHAT words you have in
  2083.   your vocabulary.  Long distinct words are easy.  Short similar
  2084.   words are hard.  You can get 98+% on the digits with this recognizer.
  2085.   
  2086.   Overview:
  2087.   (1) Find the begining and end of the utterance.
  2088.   (2) Filter the raw signal into frequency bands.
  2089.   (3) Cut the utterance into a fixed number of segments.
  2090.   (4) Average data for each band in each segment.
  2091.   (5) Store this pattern with its name.
  2092.   (6) Collect training set of about 3 repetitions of each pattern (word).
  2093.   (7) Recognize unknown by comparing its pattern against all patterns
  2094.       in the training set and returning the name of the pattern closest
  2095.       to the unknown.
  2096.  
  2097. Many variations upon the theme can be made to improve the performance.
  2098. Try different filtering of the raw signal and different processing methods.
  2099.  
  2100. ------------------------------------------------------------------------
  2101.  
  2102. Q6.2: What does speaker dependent/adaptive/independent mean?
  2103.  
  2104. A speaker dependent system is developed (trained) to operate for a single
  2105. speaker.  These systems are usually easier to develop, cheaper to buy and
  2106. more accurate, but are not as flexible as speaker adaptive or speaker
  2107. independent systems.
  2108.  
  2109. A speaker independent system is developed (trained) to operate for any
  2110. speaker or speakers of a particular type (e.g. male/female, American/English).
  2111. These systems are the most difficult to develop, most expensive and currently
  2112. accuracy is not as good.  They are the most flexible.
  2113.  
  2114. A speaker adaptive system is developed to adapt its operation for new 
  2115. speakers that it encounters usually based on a general model of speaker
  2116. characteristics.  It lies somewhere between speaker independent and speaker 
  2117. dependent systems.
  2118.  
  2119. Each type of system is suited to different applications and domains.
  2120.  
  2121. ------------------------------------------------------------------------
  2122.  
  2123. Q6.3: What does small/medium/large/very-large vocabulary mean?
  2124.  
  2125. The size of vocabulary of a speech recognition system affects the complexity,
  2126. processing requirements and the accuracy of the system.  Some applications
  2127. only require a few words (e.g. numbers only), others require very large 
  2128. dictionaries (e.g. dictation machines).
  2129.  
  2130. There are no established definitions but the following may be a helpful guide.
  2131.  
  2132.     small vocabulary - tens of words
  2133.     medium vocabulary - hundreds of words
  2134.     large vocabulary - thousands of words
  2135.     very-large vocabulary - tens of thousands of words.
  2136.  
  2137. ------------------------------------------------------------------------
  2138.  
  2139. Q6.4: What does continuous speech or isolated-word mean?
  2140.  
  2141. An isolated-word system operates on single words at a time - requiring a 
  2142. pause between saying each word.  This is the simplest form of recognition 
  2143. to perform, because the pronunciation of the words tends not affect each 
  2144. other.  Because the occurrences of each particular word are similar they are 
  2145. easier to recognise.
  2146.  
  2147. A continuous speech system operates on speech in which words are connected
  2148. together, i.e. not separated by pauses.  Continuous speech is more difficult
  2149. to handle because of a variety of effects.  First, it is difficult to find
  2150. the start and end points of words.  Another problem is "coarticulation".
  2151. The production of each phoneme is affected by the production of surrounding
  2152. phonemes, and similarly the the start and end of words are affected by the 
  2153. preceding and following words.  The recognition of continuous speech is also 
  2154. affected by the rate of speech (fast speech tends to be harder).
  2155.  
  2156. ------------------------------------------------------------------------
  2157.  
  2158. Q6.5: How is speech recognition done?
  2159.  
  2160. A wide variety of techniques are used to perform speech recognition. 
  2161. There are many types of speech recognition.  There are many levels of
  2162. speech recognition/processing/understanding.
  2163.  
  2164. Typically speech recognition starts with the digital sampling of speech.
  2165. The next stage would be acoustic signal processing.  Common techniques 
  2166. include a variety of spectral analyses, LPC analysis, the cepstral transform,
  2167. cochlea modelling and many, many more.
  2168.  
  2169. The next stage will typically try to recognise phonemes, groups of phonemes 
  2170. or words.  This stage can be achieved by many processes such as DTW (Dynamic
  2171. Time Warping),  HMM (hidden Markov modelling), NNs (Neural Networks), and
  2172. sometimes expert systems.  In crude terms, all these processes to recognise
  2173. the patterns of speech.  The most advanced systems are statistically 
  2174. motivated.
  2175.  
  2176. Some systems utilise knowledge of grammar to help with the recognition 
  2177. process.
  2178.  
  2179. Some systems attempt to utilise prosody (pitch, stress, rhythm etc) to
  2180. process the speech input.
  2181.  
  2182. Some systems try to "understand" speech.  That is, they try to convert the
  2183. words into a representation of what the speaker intended to mean or achieve
  2184. by what they said.
  2185.  
  2186. ------------------------------------------------------------------------
  2187.  
  2188. Q6.6: What are some good references/books on recognition?
  2189.  
  2190. Some general introduction books on speech recognition:
  2191.  
  2192.    Fundamentals of Speech Recognition; Lawrence Rabiner & Biing-Hwang Juang
  2193.    Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing Series), c1993
  2194.    ISBN 0-13-015157-2
  2195.  
  2196.    Speech recognition by machine; W.A. Ainsworth
  2197.    London: Peregrinus for the Institution of Electrical Engineers, c1988
  2198.  
  2199.    Speech synthesis and recognition; J.N. Holmes
  2200.    Wokingham: Van Nostrand Reinhold, c1988
  2201.  
  2202.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  2203.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  2204.    1987.
  2205.  
  2206.    Electronic speech recognition: techniques, technology and applications
  2207.    edited by Geoff Bristow,  London: Collins, 1986
  2208.  
  2209.    Readings in Speech Recognition; edited by Alex Waibel & Kai-Fu Lee.
  2210.    San Mateo: Morgan Kaufmann, c1990
  2211.  
  2212. More specific books/articles:
  2213.  
  2214.    Hidden Markov models for speech recognition; X.D. Huang, Y. Ariki, M.A. Jack.
  2215.    Edinburgh: Edinburgh University Press, c1990
  2216.  
  2217.    Automatic speech recognition: the development of the SPHINX system;
  2218.    by Kai-Fu Lee; Boston; London: Kluwer Academic, c1989
  2219.  
  2220.    Prosody and speech recognition; Alex Waibel
  2221.    (Pitman: London) (Morgan Kaufmann: San Mateo, Calif) 1988
  2222.  
  2223.    S. E. Levinson, L. R. Rabiner and M. M. Sondhi, "An Introduction to the 
  2224.    Application of the Theory of Probabilistic Functions of a Markov Process 
  2225.    to Automatic Speech Recognition" in Bell Syst. Tech. Jnl. v62(4),
  2226.    pp1035--1074, April 1983
  2227.  
  2228.    R. P. Lippmann, "Review of Neural Networks for Speech Recognition", in
  2229.    Neural Computation, v1(1), pp 1-38, 1989.
  2230.  
  2231. ------------------------------------------------------------------------
  2232.  
  2233. Q6.7: What speech recognition packages are available?
  2234.  
  2235. Information is included below on the following packages:-
  2236.  
  2237.     Voice Blaster Ver. 4.0
  2238.     Votan
  2239.     HTK (HMM Toolkit)
  2240.     DragonDictate
  2241.     VoiceServer for Windows
  2242.     IN3 Voice Command for Windows
  2243.     IN3 Voice Command
  2244.     SayIt
  2245.     Recnet
  2246.     Voice Command Line Interface
  2247.     DATAVOX
  2248.  
  2249.  
  2250. Package Name: Voice Blaster Ver. 4.0
  2251. Platform: IBM AT or higher,  DOS or Wndows 3.1
  2252. Description: Uses a Sound Blaster or compatible board.  Contains a
  2253.     microphone headset and a connector for LPT1:.  A printer can 
  2254.     still be used on LPT1:.  Will recognize 1024 words that are 
  2255.     trained by the operator.  Each word activates a macro that can 
  2256.     enter an ascii word on the screen or into a word processor or 
  2257.     invoke a batch file.  An optional footswitch may be installed.
  2258.     Software to run under DOS or Windows 3.1 is included.
  2259. Cost:   Around $150 Canadian.
  2260. Contact: COVOX Inc.
  2261.     675 Conger Street
  2262.     Eugene, Oregon
  2263.     97402
  2264.     Ph:  (503) 342-1271   Fax: (503) 342-1283
  2265.     BBS: (503) 342-4135
  2266.  
  2267.  
  2268. Package Name: Votan
  2269. Platform: MS-DOS, SCO UNIX
  2270. Description: Isolated word and continuous speech modes, speaker dependant
  2271.     and (limited) speaker independent.  Vocab size is 255 words or up to a 
  2272.     fixed memory limit - but it is possible to dynamically load different 
  2273.     words for effectively unlimited number of words.
  2274. Rough Cost: Approx US $1,000-$1,500
  2275. Requirements: Cost includes one Votan Voice Recognition ISA-bus board
  2276.     for 386/486-based machines.  A software development system is also 
  2277.     available for DOS and Unix.
  2278. Misc:    Up to 8 Votan boards may co-exist for 8 simultaneous voice users. 
  2279.     A telephone interface is also available. There is also a 4GL and a 
  2280.     software development system.
  2281.     Apparently there is more than  one version - more info required.
  2282. Contact: 800-877-4756, 510-426-5600
  2283.  
  2284.  
  2285. Package Name: HTK (HMM Toolkit) - From Entropic
  2286. Platform: Range of Unix platforms.
  2287. Description: HTK is a software toolkit for building continuous density HMM
  2288.     based speech recognisers.  It consists of a number of library 
  2289.     modules and a number of tools.  Functions include speech analysis, 
  2290.     training tools, recognition tools, results analysis, and an 
  2291.     interactive tool for speech labelling. Many standard forms of 
  2292.     continuous density HMM are possible.  Can perform isolated word or 
  2293.     connected word speech recognition.  It van model whole words, sub-
  2294.     word units.  Can perform speaker verification and other pattern 
  2295.     recognition work using HMMs.  HTK is now integerated with the
  2296.     ESPS/Waves speech research environment which is described in
  2297.     Section 1.8 of this posting.
  2298. Misc: The availability of HTK changed in early 1993 when Entropic obtained
  2299.     exclusive marketing rights to HTK from the developers at Cambridge.
  2300. Cost: On request.
  2301. Contact: Entropic Research Laboratory, Washington Research Laboratory,
  2302.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  2303.     (202) 547-1420.  email - info@wrl.epi.com
  2304.  
  2305.  
  2306. Package Name: DragonDictate-30K
  2307. Platform:     PC
  2308. Description:  Speaker dependent/adaptive system requiring words to be
  2309.     separated by short pauses.  Vocabulary of 25,000 words including
  2310.     a "custom" word set.
  2311. Rough Cost:   $5000
  2312. Requirements: Minimum of 20 Mhz 386 with 8M memory and 10M disk space
  2313. Contact:      Dragon Systems Inc.
  2314.     90 Bridge Street, Newton MA 02158
  2315.         Tel: 1-617-965-5200,  Fax: 1-617-527-0372
  2316.  
  2317.  
  2318. Package Name: VoiceServer for Windows
  2319. Platform:     PC
  2320. Description:  Speaker dependent, each with an independent directory.
  2321.     Isolated word.  Upto 1000 words/user, 300 words/window.
  2322.     1 word occupies 2Kb on hard disk.
  2323.     Can be used to control Windows applications by issuing
  2324.     voice commands instead of menu selection.
  2325. Rough Cost:   292 Pounds(UK)
  2326. Requirements: None
  2327. Misc:         Price includes a half-sized AT voice card (including a 
  2328.     DSP), software, documentation & a microphone (attachable to 
  2329.     keyboard or speaker).  A light-weight high-spec headset is an 
  2330.           optional extra.
  2331. Contact:      Mark Redwood
  2332.               Applied Voice Technologies
  2333.               26 Danbury Street, Islington,
  2334.               London, UK, N1 8JU
  2335.               Ph: + 44 71 454 1224  :  Fax: + 44 71 454 1225
  2336.  
  2337.  
  2338. Package Name:    IN3 Voice Command for Windows
  2339. Platform:    PC with Windows 3.1
  2340. Description:    IN3 is now available for MS-Windows.  Users can call 
  2341.     applications to the foreground with voice commands.  Once the 
  2342.     application is called, the user may enter commands and data with 
  2343.     voice commands.  Voice macros can reduce the strain of repetitive 
  2344.     stress injuries (RSI) such as Carpel Tunnel Syndrome (CTS) by 
  2345.     replacing heavy repetitive keyboard hammering with simple voice 
  2346.     operations.  Voice macros take complex operations and reduce them 
  2347.     to simple verbal commands.  Voice input can provide new facilities
  2348.     for tasks which could not easily have been otherwise performed 
  2349.     without the multiple axis of input.  IN3 is hardware-independent, 
  2350.     users with any Windows-compatible audio add speech recognition to 
  2351.     the desktop.  IN3 works with either 8 bit or 16 bit Windows audio 
  2352.     boards. IN3 is based on continuous word-spotting technology.  A 
  2353.     developer API is also available for creating voice-enabled 
  2354.     applications.
  2355. Price: $179 U.S.
  2356. Requirements:    PC with 80386 processor or better, Microsoft Windows 3.1, and
  2357.         Windows compatible audio system with microphone.
  2358. Misc:    Fully functional demos are available on Compuserve in various
  2359.     Multimedia and CAD forums.  Demos are also available from "America
  2360.     on Line", the comp.binaries.ms-windows archive sites, and various
  2361.     BBS systems.  It is also available by anonymous ftp as
  2362.         ftp.wustl.edu:/usenet/comp.binaries.ms-windows/v3/in3demo.zip
  2363.         ftp.uwasa.fi:/mirror/ultrasound/demo/in3demo.zip
  2364.     An equivilant Sun product is described below.
  2365. Contact: Brantley Kelly
  2366.      Email: cbk@gacc.atl.ga.us   CIS: 75120,431
  2367.      FAX: 1-404-925-7924         Phone: 1-404-925-7950
  2368.      Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  2369.  
  2370.  
  2371.  
  2372. Package Name:    IN3 Voice Command
  2373. Platform:    Sun SPARCstation
  2374. Description:    IN3 provides a secure, robust, word spotting, continuous 
  2375.     speech recognition facility for the Sun OS or Solaris operating 
  2376.     systems.  The recognition system is a secure operating system
  2377.     facility capable of working with various interfaces, microphones, 
  2378.     and devices.  The operating system interface works with native UNIX
  2379.     outside of X Windows as well as provides enhanced X Windows facilities
  2380.     including named window support.  The user interface provides a
  2381.     means to quickly create commands on the fly for replacing long strings
  2382.     and complex operations with voice macros.  [Voice macros can reduce
  2383.     the strain of repetitive stress injuries (RSI) such as Carpel Tunnel
  2384.     Syndrome (CTS) by replacing heavy repetitive keyboard hammering with
  2385.     simple voice operations.  ]
  2386.     The IN3 user interface works with generic X servers and window 
  2387.     managers.  A developer API is also available for creating voice-
  2388.     enabled applications, interfacing with other audio sources, and 
  2389.     providing extensive application control over the recognition facility.
  2390. Availability: SunSite archive at SunSITE.unc.edu as well as on Catalyst
  2391.     CDware as both a runable demo and unlockable software.
  2392. Hardware Required: Sun SPARCstation with audio input.
  2393.     Noise canceling microphone recommended but not required.
  2394. Software Required:    Sun OS 4.1.2 with OpenWindows 3.0 or
  2395.             Sun OS 4.1.3 or
  2396.             Solaris 2.1 or Solaris 2.2
  2397. Misc:    An equivilant MS-Windows product is described above.
  2398. Price:  $495 U.S.
  2399. Contact: Brantley Kelly
  2400.     Email: cbk@gacc.atl.ga.us   CIS: 75120,431
  2401.     FAX: 1-404-925-7924         Phone: 1-404-925-7950
  2402.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  2403.  
  2404.  
  2405. Package Name: Phonetic Engine 400 (PE400) - Speech Systems, Inc.
  2406. Platform:     PC
  2407. Description:  Speaker independent, large vocabulary, continuous speech
  2408.     recognition for MS Windows or DOS.
  2409. Rough Cost: $1195 US dollars.  Includes board, microphone, developer kit,
  2410.     documentation, 2 days of technical training and 90 days of
  2411.     technical support.
  2412. Requirements: IBM AT class machine or better plus 5M disk space.  Most 
  2413.     processing is performed on-board (4M standard or 16M upgrade).
  2414. Misc: Requires developer to provide a context-free grammar.
  2415.     Vocabulary size unknown (quotes from 500 - 2000 words per grammar),
  2416.     but dynamic grammar switching capabilities may increase the
  2417.     effective vocabulary size.
  2418.     Development system includes lower-level C,C++ library (VoiceLib),
  2419.     higher-level DLL (SPOT) callable from many languages, SPOT/VBX,
  2420.     a custom control for Visual Basic and Visual C++.
  2421. Contact: Speech Systems, Inc.
  2422.         2945 Center Green Court South
  2423.         Boulder, CO 80301-2275, USA
  2424.         Tel: 303.938.1110  Fax: 303.938.1874
  2425.  
  2426.  
  2427. Package Name: SayIt
  2428. Platform:     Sun SPARCstation
  2429. Description:  Voice recognition and macro building package for Suns
  2430.     in the Openwindows 3.0 environment.  Speaker dependent discrete speech 
  2431.     recognition. Vocabularies can be associated to applications and the
  2432.     active vocabulary follows the application that has input focus.
  2433.     Macros can include mouse commands, keystrokes, Unix commands, 
  2434.     sound, Openwindow actions and more.  
  2435.     An evaluation copy is available by email.
  2436. Hardware:     Microphone required (SunMicrophone is fine).
  2437. Cost:         $US295
  2438. Contact:      Phone: 1-800-245-UNIX or 1-415-572-0200
  2439.     Fax: 1-415-572-1300
  2440.     Email: info@qualix.com
  2441.  
  2442.  
  2443. Package Name: recnet
  2444. Platform:     UNIX
  2445. Description:  Speech recognition for the speaker independent TIMIT and 
  2446.     Resource Management tasks.  It uses recurrent networks to estimate 
  2447.     phone probabilities and Markov models to find the most probable 
  2448.     sequence of phones or words.  The system is a snapshot of evolving 
  2449.     research code.  There is no documentation other than published 
  2450.     research papers.  The components are:
  2451.     1. A preprocessor which implements many standard and many non-
  2452.     standard front end processing techniques.
  2453.     2. A recurrent net recogniser and parameter files
  2454.     3. Two Markov model based recognisers, one for phone recognition 
  2455.     and one for word recognition
  2456.     4. A dynamic programming scoring package
  2457.     The complete system performs competatively.
  2458. Cost:         Free
  2459. Requirements: TIMIT and Resource Management databases
  2460. Contact:      ajr@eng.cam.ac.uk (Tony Robinson)
  2461. Availability: by FTP from "svr-ftp.eng.cam.ac.uk" as /misc/recnet-1.3.tar.Z
  2462.  
  2463.  
  2464. Package Name: Voice Command Line Interface
  2465. Platform:     Amiga
  2466. Description:  VCLI will execute CLI commands, ARexx commands, or ARexx 
  2467.     scripts by voice command through your audio digitizer. VCLI allows 
  2468.     you to launch multiple applications or control any program with an 
  2469.     ARexx capability entirely by spoken voice command. VCLI is fully 
  2470.     multitasking and will run in the background, continuously listening
  2471.     for your voice commands even while other programs are running.
  2472.     Documentation is provided in AmigaGuide format.
  2473.     VCLI 6.0 runs under either Amiga DOS 2.0 or 3.0.
  2474. Cost:         Free?
  2475. Requirements: Supports the DSS8, PerfectSound 3, Sound Master, Sound Magic, 
  2476.     and Generic audio digitizers.
  2477. Availability: by ftp from wuarchive.wustl.edu in the file
  2478.     systems/amiga/incoming/audio/VCLI60.lha and from
  2479.     amiga.physik.unizh.ch as the file pub/aminet/util/misc/VCLI60.lha
  2480. Contact:      Author's email is RHorne@cup.portal.com
  2481.  
  2482.  
  2483. Package Name: DATAVOX - French
  2484. Platform:     PC
  2485. Description:  Continuous speech - speaker independent or dependent.
  2486. Rough Cost:   ?
  2487. Requirements: 2 PC format boards (RdF1000 and TdS 96/25) and an 
  2488.     A/D - D/A module (ASA116)
  2489. Misc:    Application software may dialog with DATAVOX through 2 types 
  2490.     of interfaces :
  2491.     1) Keyboard overlay
  2492.        The application software may be used with any PC compatible 
  2493.        package. No specific adaptation is necessary, you only need
  2494.        to define your configuration with the application software.
  2495.     2) C library
  2496.        Allows a user-written program to drive the recognition system.
  2497.     DATAVOX is based on the AMADEUS speech recognition software
  2498.     developed at LIMSI.  It provides 
  2499.     - Continuous speech recognition with
  2500.       * speaker dependant : 500 words
  2501.       * speaker independant : 50 words (custom-made vocabulary).
  2502.     - Grammar of the application language (syntax acquisition, 
  2503.       verification and simplification software).
  2504.     - Large vocabulary : DATAVOX can recognize vocabularies of several 
  2505.       thousand words as long as there are no more than 500 words in the 
  2506.       active vocabulary at any given node. It takes less than 1 second 
  2507.       to change syntax and vocabulary.
  2508.     - Training controlled by the system (use of co-articulation models).
  2509.     - Response time less than 500 ms for any phrase length.
  2510.     - Synthetis (ADPCM) can be heard simultaneously while recognition 
  2511.       is being carried out.
  2512. Contact: VECSYS, Le Chene rond, 91570 Bievres, France
  2513.      Fax:   33 1 69 41 24 30
  2514.      Voice: 33 1 69 41 15 04
  2515.  
  2516.  
  2517. Package: PowerSecretary
  2518. Platform: Mac
  2519. Price: $US5,000 (including a Centris or Quadra AV)
  2520. Availability: Articulate Systems Inc.  
  2521.     600 W. Cummings Park, Suite 4500
  2522.     Woburn, MA  01801
  2523.     Ph: (617) 935-5656   Fax: (617) 935-0490.
  2524.  
  2525.  
  2526. Pacakge: ICSS system from IBM
  2527. Description: A large vocabulary, speaker independent, continuous speech 
  2528.     system which runs under Windows, OS/2, and AIX.
  2529. Requirements: Soundboard (e.g. Soundblaster)
  2530. Price: ?
  2531. Contact: ?
  2532.  
  2533.  
  2534. Package:  Creative VoiceAssist
  2535. Platform: PC (?)
  2536. Price:      $US99.95
  2537. Contact:  Creative Labs
  2538.     Ph: 1-800-998-5227
  2539.  
  2540.  
  2541. Package Name: xxx
  2542. Platform:     PC, Mac, UNIX, Amiga ....
  2543. Description:  (e.g. isolated word, speaker independent...)
  2544. Rough Cost:   (if applicable)
  2545. Requirements: (hardware/software needs - if applicable)
  2546. Misc:
  2547. Contact:      (email, ftp or address)
  2548.  
  2549.  
  2550. Can anyone provide info on
  2551.  
  2552.     Verbex Listen for Windows
  2553.     Voice Navigator (from Articulate Systems)
  2554.     SRI Recognisers
  2555.     BBN Recognisers
  2556.  
  2557.  
  2558. Can you provide information on any other software/hardware/packages?
  2559. Commercial, public domain and research packages are all appropriate.
  2560.  
  2561.  
  2562.  
  2563.  
  2564. Andrew Hunt
  2565. Speech Technology Research Group        Ph:  61-2-692 4509
  2566. Dept. of Electrical Engineering            Fax: 61-2-692 3847
  2567. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  2568.